🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸 #nlp... / Техножрица 👩‍💻👩‍🏫👩‍🔧 / Telegram Center

🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸 #nlp #про_nlp #nlp_papers Прогресс неостановим, работать все равно ничего не будет Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы? Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов). Но я ничего не забываю! ~~И коплю академическую злобу.~~ Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя. Итак, что же делает оценку модели на бенчмарке хорошей? 🟣Монотонность при обучении Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка. Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом. HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная. Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла. 🟣Разброс результатов Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели. У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание. 🟣Нескомпрометированность Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей! Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн. Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста. Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него. 🟣Несатурированность Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше. В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда! См Benchmark Lottery

🟣

Сонаправленность с другими бенчмарками Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей. Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то ~~возможно пробоема в вас~~ нужно разбираться, почему. К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью. В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону. Мои посты по теме: 🟣Оценка LLM в 2023 году

🟣

Оценка LLM в 2024 году

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

#nlp #про_nlp
🌸Сравнение языковых моделей в 2023 году🌸

Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.

Бенчмарки — инструменты для оценки компьютерных систем, в языковых…

https://t.center/tech_priestess/1904

3.8K viewsNov 21 at 10:17

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Бот для знакомств