Сегодня рассказываем про то, как исследователи AIRI создали... / AIRI Institute / Telegram Center

Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами ⤵️ BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS). Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста. Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами. Научная статья | Репозиторий |Материал Inc.

Please open Telegram to view this post

VIEW IN TELEGRAM

https://t.center/airi_research_institute/681

3.0K viewsNov 19 at 14:56

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Бот для знакомств