✔️ FrontierMath: набор тестов по математике, который ставит... / Математика Дата саентиста / Telegram Center

✔️

FrontierMath: набор тестов по математике, который ставит в тупик модели ИИ и кандидатов наук. Epoch AI представила FrontierMath, математический тест, который содержит сотни задач экспертного уровня. Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro показали крайне низкие результаты - менее 2%, а для решения задач теста математикам-специалистам обычно требуются часы или дни. Набор задач в FrontierMath остается закрытым и неопубликованным, чтобы предотвратить загрязнение данных. Задачи охватывают несколько математических дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии. Epoch AI планирует проводить регулярную оценку моделей ИИ с помощью теста, одновременно расширяя набор задач. 📌 epoch.ai @data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

https://t.center/data_math/531

1.7K viewsNov 13 at 21:20

Telegram Center

Канал