View in Telegram
Тем временем Anthropic зарелизили Claude 3.5 Sonnet и цифры по математическому бенчмарку GSM8K переваливают за 95% Надо признать, что GSM8K не только проверяет способность модели выдавать правильный ответ на задачку, но и ее способность правильно решать эту задачу Вот кстати интересная статья про то как SurgeAI помогали OpenAI в создании бенчмарка GSM8K – https://www.surgehq.ai//blog/how-we-built-it-openais-gsm8k-dataset-of-8500-math-problems
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily