🌸Больше языков для LLM🌸 #nlp #про

🌸Больше языков для LLM🌸 #nlp #про_nlp Huggingface в поиске контрибьюторов носителей языков! Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣

Сколько языков сейчас представлены в практике моделирования языка? Если считать, что в целом живых языков 6-7 тысяч, — в базе Ethnologue 7164 — суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages) — у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣

Бутылочное горлышко валидации Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными. Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных. Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей. Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону. 🟣Инициатива HuggingFace Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей. Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата: — Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе. — Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста. — Понимание естественного языка (NLU): Понимание семантики предоставленного ввода. — Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний. — Генеративные задачи: Умение генерировать корректный текст на целевом языке. Авторы уже собрали 185 задач для 9 языков: поддерживаются китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу. Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью. Ну и... ждём большой новый многоязычный корпус с открытой лицензией! Куда контрибьютить? 🟣 Контрибьютить новые задания и языки можно здесь в шаблоне

🟣

Мини-гайд

🟣

Блог HF

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

Кстати, пока я пост писала, там HuggingFace треснул и упал:

HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…

https://t.center/rybolos_channel/1309

14.5K viewsNov 7 at 11:02

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily