Представлен "Последний экзамен человечества" от CAIS и... / Futuris / Telegram Center

Представлен "Последний экзамен человечества" от CAIS и Scale AI: новый бенчмарк из 3000 сложнейших вопросов по более чем 100 предметам. Созданный почти 1000 экспертами из 500+ учреждений в 50 странах, HLE призван оценить предел возможностей ИИ, поскольку существующие тесты (MMLU) покорились моделям с точностью выше 90%. Первые результаты шокируют: даже GPT-4o показал всего 3.3% точности, а лучший результат – 9.4% принадлежит китайской R1. Организаторы считают HLE ключевым инструментом для измерения прогресса ИИ и прогнозируют достижение 50% точности к концу 2025 года. Издания New York Times и Reuters уже назвали HLE важным этапом в развитии искусственного интеллекта👌 Делаем ставки как быстро этот "экзамен" покорят нейронки https://agi.safe.ai/

agi.safe.ai

Humanity's Last Exam

Humanity's Last Exam Dataset

https://t.center/Futuris/3038

1.5K viewsAnton, edited Jan 23 at 13:51

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily