🌸OpenAI O1 — новый лидер LLM🌸 #nlp #про_nlp #nlp

🌸OpenAI O1 — новый лидер LLM🌸 #nlp #про_nlp #nlp_papers Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит? TL;DR 12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов self-reflection, chain-of-thought. 🌸Основные достижения и оценка Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго! Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%! Некоторые задачи, например, MMLU College Mathematics, решены на 98+%! Но добавлены и новые процедры оценки, которые готовят нас к следующим релизам: — агентные оценки: оценки в степени автономности модели (пока низко), способности к убеждению (средне), оценки на применения в кибербезопасности (низкий риск), оценки катастрофических рисков ( а тут уже средний риск ой-ой). При этом самих индустриальных агентных бенчмарков не дают, но думаю, сообщество скоро посчитает. Доступа в интернет у превью модели нет. Ну а теперь про последствия: 🌸Формат работы с LLM поменяется! Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда. — Больше никакого промт-инжиниринга, "подумай шаг за шагом", "я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами Dalle 3 и у Anthropic), или вовсе встроено в процедуры SFT. Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом. — Полюбившиеся нам хаки и джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection. 🌸Формат обучения LLM и агентных систем тоже поменяется! Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, то ~~бог вам судья~~ вы все делаете правильно. Но дальше — больше! По представленным результатам мы видим, что прирост качества от улучшения претрейна уже сатурировался, и если еще в этом году основной прирост приходился на вложения в качественный SFT, то теперь основной прирост бует приходиться на inference-time compute методы. DeepMind, к слову, делает то же самое. 🌸Ограничения — Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы. — Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованы ~~нелегальные~~ открытые данные, в том числе научные (читай: мы используем Anna's Archive), а также законные проприетарные данные, полученные в результате партнерств. Попробуйте поймайте! 🟣Playground https://platform.openai.com/playground/chat?models=o1-preview 🟣Score card https://cdn.openai.com/o1-system-card.pdf

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

OpenAI Platform

Explore developer resources, tutorials, API docs, and dynamic examples to get the most out of OpenAI's platform.

https://t.center/rybolos_channel/1240

10.0K viewsedited Sep 14 at 12:31

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily