Что почитать сегодня – NOTA AI/ML Daily Digest.
1. Tesseract vs таблицы. Распознавание документов
Автор рассказывает о своем опыте использования Tesseract и openCV для распознавания текста и таблиц в PDF документах. Описывается алгоритм предварительной обработки изображения, выделения контуров, классификации объектов на текст и таблицы. Рассматривается представление таблиц в виде графа для последующей обработки.
https://habr.com/ru/articles/546824/————————————————————
2. NLP in C# made easy with spaCy & Catalyst
В статье рассматривается использование библиотек spaCy и Catalyst для разработки решений NLP на C#. Описывается интеграция spaCy с C# через Catalyst, демонстрируются примеры работы с текстом, извлечения имен сущностей, классификации. Показана простота разработки NLP приложений на C# с использованием данных библиотек.
https://theolivenbaum.medium.com/nlp-in-c-made-easy-with-spacy-catalyst-acc93e005f3d————————————————————
3. Building a Text Classifier with Spacy 3.0
Статья описывает процесс обучения классификатора текстов с использованием библиотеки SpaCy 3. Загружаются данные для обучения из репозитория ML-Datasets. Показана простая реализация классификатора с несколькими строками кода без предобученных векторов.
https://medium.com/analytics-vidhya/building-a-text-classifier-with-spacy-3-0-dd16e9979a————————————————————
Теги:
#image_ai #nlp #csharp