Тем временем Anthropic зарелизили Claude 3.5 Sonnet и цифры по математическому бенчмарку GSM8K переваливают за 95%
Надо признать, что GSM8K не только проверяет способность модели выдавать правильный ответ на задачку, но и ее способность правильно решать эту задачу
Вот кстати интересная статья про то как SurgeAI помогали OpenAI в создании бенчмарка GSM8K – https://www.surgehq.ai//blog/how-we-built-it-openais-gsm8k-dataset-of-8500-math-problems