View in Telegram
В рубрике полезных инструментов с открытым кодом docling [1] от IBM Open Source и конкретнее их команды Deep Search. Утилита и библиотека для Python по преобразованию условно любых документов в Markdown. Умеет работать с (PDF, DOCX, PPTX, Images, HTML, AsciiDoc, Markdown и преобразует их в Markdown или JSON. При этом распознает сканированные документы, извлекает таблицы и поддерживает множество движков распознавания. Интегрируется с LangChain и LllamaIndex, значительно быстрее работает при наличии CUDA. Я проверял без графического процессора, поэтому было небыстро, но результирующий Markdown текст вполне приличный. Можно за короткий срок извлечь таблицы из огромного числа документов, при наличии вычислительных ресурсов, конечно. Ссылки: [1] https://ds4sd.github.io/docling/ #opensource #pdf #dataengineering
Telegram Center
Telegram Center
Channel