Смотреть в Telegram
Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами ⤵️ BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS). Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста. Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами. Научная статья | Репозиторий |Материал Inc.
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств