View in Telegram
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸 #nlp #про_nlp #nlp_papers Прогресс неостановим, работать все равно ничего не будет Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы? Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов). Но я ничего не забываю! И коплю академическую злобу. Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя. Итак, что же делает оценку модели на бенчмарке хорошей? 🟣Монотонность при обучении Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка. Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом. HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная. Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла. 🟣Разброс результатов Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели. У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание. 🟣Нескомпрометированность Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей! Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн. Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста. Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него. 🟣Несатурированность Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше. В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда! См Benchmark Lottery 🟣Сонаправленность с другими бенчмарками Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей. Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему. К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью. В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону. Мои посты по теме: 🟣Оценка LLM в 2023 году 🟣Оценка LLM в 2024 году
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily