Очень интересная
статья вышла на Хабре про то, как тестируют "интеллект" моделей, написанная простым языком так, что понятно даже неспециалистам. Интересным мне показалось не только то, какое разнообразие бенчмарков существует, но и то, как борются с ликами (протечками). Это когда часть данных, на которых нужно тестировать модель, содержится в тренировочном датасете из-за того, что он очень большой, а в интернете бывало всякое, в том числе и данные бенчмарков в каком-то виде. У этого даже специальный термин есть - загрязнение бенчмарка.
Еще узнал, что у подхода, когда модель выдает пользователю два ответа, из которых нужно выбрать лучший, есть серьезный байес в сторону IT-вопросов. Потому что, в основном, такими моделями пользуются именно IT-шники, задавая соответствующие технические вопросы, а хотелось бы универсальную модель, которая на любые темы сможет общаться.
В целом, подход, когда человек оценивает качество ответа модели вполне рабочий, но как когда-то модели научились зарабатывать максимальное количество очков, крутясь на месте в игре, где надо было управлять катером, так и здесь нейросети поняли, что человек выше оценивает ответы модели, если они оформлены определенным образом (развернутый, структурированный ответ со множеством отсылок), не смотря на то, что такие ответы могут быть менее качественными и даже содержать ошибки.
Статья от экспертов Яндекса, как раз занимающихся большими моделями, поэтому отдельно есть рассказ о подходах к решению этих проблем для их моделей. Там довольно протяженный пайплайн, в котором, на некоторых этапах, всё еще участвуют люди - как эксперты в ИИ, так и специалисты других направлений
В общем, отличная статья, погружающая в проблематику оценки "интеллекта" LLM. Рекомендую!