View in Telegram
🌸OpenAI O1 — новый лидер LLM🌸 #nlp #про_nlp #nlp_papers Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит? TL;DR 12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов self-reflection, chain-of-thought. 🌸Основные достижения и оценка Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго! Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%! Некоторые задачи, например, MMLU College Mathematics, решены на 98+%! Но добавлены и новые процедры оценки, которые готовят нас к следующим релизам: — агентные оценки: оценки в степени автономности модели (пока низко), способности к убеждению (средне), оценки на применения в кибербезопасности (низкий риск), оценки катастрофических рисков ( а тут уже средний риск ой-ой). При этом самих индустриальных агентных бенчмарков не дают, но думаю, сообщество скоро посчитает. Доступа в интернет у превью модели нет. Ну а теперь про последствия: 🌸Формат работы с LLM поменяется! Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда. — Больше никакого промт-инжиниринга, "подумай шаг за шагом", "я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами Dalle 3 и у Anthropic), или вовсе встроено в процедуры SFT. Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом. — Полюбившиеся нам хаки и джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection. 🌸Формат обучения LLM и агентных систем тоже поменяется! Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, то бог вам судья вы все делаете правильно. Но дальше — больше! По представленным результатам мы видим, что прирост качества от улучшения претрейна уже сатурировался, и если еще в этом году основной прирост приходился на вложения в качественный SFT, то теперь основной прирост бует приходиться на inference-time compute методы. DeepMind, к слову, делает то же самое. 🌸Ограничения — Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы. — Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованы нелегальные открытые данные, в том числе научные (читай: мы используем Anna's Archive), а также законные проприетарные данные, полученные в результате партнерств. Попробуйте поймайте! 🟣Playground https://platform.openai.com/playground/chat?models=o1-preview 🟣Score card https://cdn.openai.com/o1-system-card.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily