На Хабре вышла
статья об оценке умений LLM-моделей, и это интереснее, чем может показаться на первый взгляд.
Традиционно считается, что интеллект LLM можно измерить как человеческий — с помощью тестов и экзаменов. Отсюда и появились многочисленные академические бенчмарки. Но эти тесты упускают главное: LLM создаются не для решения ЕГЭ, а для реальных задач — ведение диалога, перевод, суммаризация, брейншторминг. К тому же все бенчмарки подвержены протечкам данных — тестовые задания попадают в тренировочные наборы, искажая результаты.
LLM-модели не имеют той внутренней картины мира, которая есть у людей. Для нас вопрос «стоит ли брать кирпичи на пляж» звучит абсурдно, а для модели этот ответ совсем не очевиден. Именно поэтому появились специальные бенчмарки на «здравый смысл» — COPA, PIQA, OpenBook, WinoGrande. Но и они не отражают реальной применимости модели в бизнес-задачах.
Автор статьи, специалист из Яндекса, рассказал, что компания создаёт внутренние бенчмарки под конкретные задачи и привлекает AI-тренеров — специалистов из разных областей для глубокой оценки ответов модели. Это дороже и сложнее с точки зрения систем контроля качества, но позволяет понять реальную ценность LLM.
Отдельного внимания заслуживает LMSYS Chatbot Arena, где пользователи сами оценивают ответы моделей по принципу шахматного рейтинга. Казалось бы, отличное решение, но и здесь есть подводные камни — респонденты часто предпочитают длинный красиво оформленный ответ короткому, даже если он неправильный.
Самый важный вывод: универсального решения для оценки LLM просто нет. И это не баг, а фича — приходится постоянно комбинировать методы, анализировать данные и проверять, насколько модель действительно полезна в реальных задачах. Оценка практической ценности ИИ оказалась не менее сложной задачей, чем его создание.