بالاخره مایکروسافت به خودش اومد و یک محصول خوب و اوپن سورس داد:
https://github.com/microsoft/markitdown که واقعا به درد پردازش متن و فایل برای هوش مصنوعی میخوره.
این کتابخونه پایتونی فایلهایی که مجموعه اداری مایکروسافت تولید میکنه رو میگیره، به فرمت Markdown تبدیل میکنه.
این رو بگم که من فقط در موردش خوندم و هنوز تستش نکردم. ولی مطمئنا برای خیلی کارها مناسبه. نمونهش؟ این که شما یک فایل ورد رو باهاش تبدیل کنی و بدی به AI که برات پردازشش کنه. برای Context Document و یا حتی RAG خیلی بدردبخوره :)
@haghiri75_blog