Команда Яндекса рассказала, как они оценивают, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции и мемы
Для этого был разработан большой бенчмарк — на пути к его созданию было оцифровано представление о современном российском культурном коде и создано множество промтов разной степени сложности
Итоговый бенчмарк в 2.000 вопросов протестировали на себе AI-тренеры — их результаты стали контрольной группой для оценки знаний YandexGPT