Помните бенчмарк Humanity’s Last Exam, в который можно было... / Data Secrets / Telegram Center

Выиграть $5000 и стать соавтором в статье с CEO ScaleAI в обмен всего на один вопрос? Да запросто. CAIS и ScaleAI запустили конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают 500 до 5000 долларов, а также соавторство…

Помните бенчмарк Humanity’s Last Exam, в который можно было предложить свой вопрос за 5000 долларов? Его опубликовали! Напоминаем: ученые из CAIS и ScaleAI с сентября собирали самый сложный бенчмарк с вопросами из разных областей. За хорошие вопросы они давали от 500 до 5000 долларов, а также соавторство в статье. И вот наконец бечмарк вышел! Он состоит из 3000 вопросов и ведущие модели выбивают на нем < 10%. Лучше всех справляется (не поверите) новая R1 от DeepSeek: она выбивает 9.4%, в то время как даже o1 выбивает всего 9.1%. Среди вопросов бОльшая часть по математике (42%), но также много физики, биологии и других наук. Примеры задачек можно посмотреть в статье. Датасет | Статья | Репо

https://t.center/data_secrets/5985

10.2K viewsJan 23 at 14:56

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Бот для знакомств