مایکروسافت اخیرا یک کتابخانه پایتون به نام
MarkItDown منتشر کرده که ابزاری کاربردی برای تبدیل فایلهای مختلف (فایلهای پاورپوینت، پیدیاف، ورد، اکسل و...) به Markdown است.
این موضوع برای تجزیه و تحلیل متون داخل فایلها بسیار کاربردیست.
این کتابخانه در حال حاضر از pdf، پاورپوینت (pptx.)، ورد (.docx)، اکسل (xlsx.)، تصاویر (متادیتای EXIF و OCR)، فایل صوتی (متادیتای EXIF و رونویسی گفتار)، HTML (به خصوص در مورد ویکیپدیا و...) و برخی از سایر فرمتهای مبتنی بر متن مثل csv, json, xml پشتیبانی میکند.
شروع استفاده از این ابزار بسیار سریع و راحت است:
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)
🔗 مشاهده در GitHub
برای درک بهتر کاربرد آن میتوانید از دمویی که یک برنامهنویس خارجی در آدرس زیر قرار داده استفاده کنید:
https://msftmd.replit.appبه نقل از:
@MiladNouriChannel----------
https://t.center/andishesara----------