Смотреть в Telegram
Data Secrets
Выиграть $5000 и стать соавтором в статье с CEO ScaleAI в обмен всего на один вопрос? Да запросто. CAIS и ScaleAI запустили конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают 500 до 5000 долларов, а также соавторство…
Помните бенчмарк Humanity’s Last Exam, в который можно было предложить свой вопрос за 5000 долларов? Его опубликовали! Напоминаем: ученые из CAIS и ScaleAI с сентября собирали самый сложный бенчмарк с вопросами из разных областей. За хорошие вопросы они давали от 500 до 5000 долларов, а также соавторство в статье. И вот наконец бечмарк вышел! Он состоит из 3000 вопросов и ведущие модели выбивают на нем < 10%. Лучше всех справляется (не поверите) новая R1 от DeepSeek: она выбивает 9.4%, в то время как даже o1 выбивает всего 9.1%. Среди вопросов бОльшая часть по математике (42%), но также много физики, биологии и других наук. Примеры задачек можно посмотреть в статье. Датасет | Статья | Репо
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств