Модель
🇨🇳 вышла только вчера, а уже произвела
ХЛОПОК в соревновании по решению математических задач AIMO 2. Напомню, это соревнование по олимпиадным задачкам, спонсируемое трейдинговой компанией XTX Markets. Специально для него подготовили полностью новые и уникальные задачи, все решения считаются в оффлайне без доступа к интернету (то есть o1-mini не получится использовать).
Больше деталей писал в анонсе первого тура, читайте
тут. Тогда тоже было 50 задач, и качество оценивалось количеством правильно решённых (проверяется только ответ). Решение первого места справилось с 29 из них, поэтому для второго тура решили задачи усложнить (но и ресурсов для запуска моделей выдать побольше).
Последние 3-4 недели в топе были решения, которые решали 10 задач из 50 (ещё раз: потому что их усложнили, а не потому что LLM-ки потупели). Я стабильно заходил раз в 4-5 дней проверить, и было по 10 решённых задач, всего у двух команд! У остальных 9 и меньше.
Зашёл сегодня — первое место 18, второе 17, третье 15, и ещё человек 7-8 выше старого предела в 10 очков. Как минимум 9-ое место с 12 решёнными задачами уже
написало, что их скачок 8->12 (кажется мало, но это же +50%!) обусловлен просто сменой модели на свежую QwQ. Скорее всего, 14-15 задач можно решить точно так же, просто немного поправив логику вокруг модели. Моя ставка что и 17-18 задач взяты этой моделью, просто с каким-то трюками (но без дообучения, так как прошло меньше суток) — ну не могло быть такого совпадения, что несколько команд независимо нашли где-то в углу или под матрасом +70-80% качества в один день.
Вот такой скачок в качестве может делать новая парадигма длительных рассуждений. Правда в некоторым смысле топовые места теперь в тупике — пока никто не знает, как дообучать модели с длинными цепочками рассуждений, статей нет, примеров нет, есть только очень верхнеуровневые догадки.
А ещё возможно, что из-за ограничений соревнований нельзя будет претендовать на призы с этой моделью (QwQ), так как она появилась позже дедлайна. А может и нет, тут надо разбираться с правилами, может, какие изменения внесли — в первом туре точно было бы нельзя. Уже
одобрили, можно.
UPD: очень жаль, что по окончанию соревнований приватные задачи не выкладывают, чтобы на них можно было прогнать o1-mini/preview и оценить, какой разрыв там.
UPD 2: уже есть два решения по 20 задач. Напомню, что двое суток назад, до релиза модели, максимум был 10 (и он держался несколько недель). Более того, решение
выложено (так как первое публичное решение, справляющееся с 20 задачами, получает $20'000)