Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами ⤵️
BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS).
Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста.
Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.
Научная статья | Репозиторий |Материал Inc.