Помните бенчмарк Humanity’s Last Exam, в который можно было предложить свой вопрос за 5000 долларов? Его опубликовали!
Напоминаем: ученые из CAIS и ScaleAI с сентября собирали самый сложный бенчмарк с вопросами из разных областей. За хорошие вопросы они давали от 500 до 5000 долларов, а также соавторство в статье.
И вот наконец бечмарк вышел! Он состоит из 3000 вопросов и ведущие модели выбивают на нем < 10%.
Лучше всех справляется (не поверите) новая R1 от DeepSeek: она выбивает 9.4%, в то время как даже o1 выбивает всего 9.1%.
Среди вопросов бОльшая часть по математике (42%), но также много физики, биологии и других наук. Примеры задачек можно посмотреть в статье.
Датасет | Статья | Репо