Смотреть в Telegram
✔️ FrontierMath: набор тестов по математике, который ставит в тупик модели ИИ и кандидатов наук. Epoch AI представила FrontierMath, математический тест, который содержит сотни задач экспертного уровня. Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro показали крайне низкие результаты - менее 2%, а для решения задач теста математикам-специалистам обычно требуются часы или дни. Набор задач в FrontierMath остается закрытым и неопубликованным, чтобы предотвратить загрязнение данных. Задачи охватывают несколько математических дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии. Epoch AI планирует проводить регулярную оценку моделей ИИ с помощью теста, одновременно расширяя набор задач. 📌 epoch.ai @data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram Center
Telegram Center
Канал