Как IT-компании оценивают умения LLM-моделейНа Хабре вышла статья о подходах к оценке качества языковых моделей. В ней подчеркивается, что традиционные академические бенчмарки (вроде школьных тестов) уже не отражают реальной ценности LLM — ведь модели создаются для решения практических задач: ведения диалогов, перевода текстов, суммаризации и помощи в генерации идей. Более того, все бенчмарки подвержены протечкам данных, когда тестовые задания попадают в тренировочные данные, что искажает результаты оценки.
В Яндексе для тестирования YandexGPT разработали более комплексный подход: создали собственные бенчмарки под реальные бизнес-задачи, включая проверку знания русскоязычных фактов и культурного контекста, а также привлекают AI-тренеров — экспертов в различных областях, которые тщательно проверяют ответы модели на точность.
1️⃣ DevHub Community