🌸OpenAI O1 — новый лидер LLM🌸
#nlp #про_nlp #nlp_papers
Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит?
TL;DR
12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов
self-reflection, chain-of-thought.
🌸Основные достижения и оценка
Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем
по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго!
Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%!
Некоторые задачи, например, MMLU College Mathematics, решены на 98+%!
Но добавлены и новые
процедры оценки, которые готовят нас к следующим релизам:
—
агентные оценки: оценки в степени автономности модели
(пока низко), способности к убеждению
(средне), оценки на применения в кибербезопасности
(низкий риск), оценки катастрофических рисков
( а тут уже средний риск ой-ой).
При этом самих индустриальных
агентных бенчмарков не дают, но думаю, сообщество скоро посчитает.
Доступа в интернет у превью модели нет.
Ну а теперь про последствия:
🌸Формат работы с LLM поменяется!
Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда.
— Больше никакого промт-инжиниринга, "подумай шаг за шагом", "
я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами
Dalle 3 и у
Anthropic), или вовсе встроено в процедуры SFT.
Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом.
— Полюбившиеся нам хаки и
джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection.
🌸Формат обучения LLM и агентных систем тоже поменяется!
Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, то
бог вам судья вы все делаете правильно. Но дальше — больше! По представленным результатам мы видим, что прирост качества от улучшения претрейна уже сатурировался, и если еще в этом году основной прирост приходился на вложения в качественный SFT, то теперь основной прирост бует приходиться на inference-time compute методы.
DeepMind, к слову, делает то же самое.
🌸Ограничения
— Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см
скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы.
— Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованы
нелегальные открытые данные, в том числе научные (читай: мы используем Anna's Archive), а также законные проприетарные данные, полученные в результате партнерств. Попробуйте поймайте!
🟣Playground
https://platform.openai.com/playground/chat?models=o1-preview
🟣Score card
https://cdn.openai.com/o1-system-card.pdf