Ну и не могу вдогонку не высказаться по поводу набившей оскомину o1. OpenAI подают её как
первую модель, умеющую рассуждать, особенно впечатлительные юзеры пишут про
новую парадигму в ИИ, а я смотрю на это всё и понимаю, что это тупик и маркетинговый трюк, чтобы вырваться на месяц-полтора вперёд на
некоторых бенчах и заполучить ещё несколько сотен миллионов долларов инвестиций.
Наверняка мы этого не знаем, но, скорее всего, всё, что они сделали —
это нагенерили 100500 рабочих трейсов CoT через Monte Carlo Tree Search, доучили модельку на них с помощью какого-нибудь DPO и дополнительно потюнили на нахождение собственных ошибок. Может быть, ещё руками разметили ветки для областей, где автоматическая верификация цепочек рассуждений невозможна. Не слишком
неочевидная мысль, и, как показывает
предыдущий пост, довольно ограниченная в мощности.
Юзеры, которым не очень интересна математика или код — те, кто хотят поролплеить или хотят фактологической точности — от o1 плюются, потому что
стало дороже и не сильно лучше. Ресёрчеры плюются, потому что после вопросов о том, как o1 работает, им на почту
прилетают письма счастья от OpenAI. Дурачки радуются, что наконец то в сфт добавили информацию сколько букв "r" в слове "strawberry" и говорят, что AGI уже рядом и мы скоро заживём счастливо и богато.
Имхо, OpenAI уже не те. Какое-то время назад они перестали быть open, но им это прощали, потому что они регулярно выкладывали крутые статьи или делали потрясающие продукты типа Sora, Advanced Voice Mode или GPT-4, которую аж полтора года никто не мог догнать по качеству. Ну а сейчас у них нет ни прорывного ресёрча, ни прорывного продукта (потому что o1 легко может быть
побеждён генерацией программ на питоне и запуском их в репле), только top-1 скоры на Arena Hard и хайп на пустом месте.
—
Ну раз я такой умный, то чё делать дальше то? Есть идеи как продвинуть область или ты только рантить можешь?
Есть. Двигать ресёрч в агентах (потому что решение задач чисто ллмками имеет очевидные ограничения), повышать IFEval (потому что это самое важное для агентов), учить модели пользоваться тулами (чтобы они не пытались обмануть свою токенизацию, считая число букв r в слове strawberry), пилить тру мультиязычность (а не то
подобие мультиязычности с просадками в 10-15% на ммлу на чуть менее ресурсных языках не из романской группы), уменьшать галлюцинации (или хотя бы
учиться их
ловить!), исследовать
новые архитектуры, заниматься interpretability, уменьшать стоимость и спарсити моделей через прунинг, учить большие энкдеки и сравнивать их с декодерами, море идей. Но чтобы делать всё и сразу мне недостаточно платят, так что сконцентрируюсь ка я пока что на всём, что начинается с "мульти-", а в свободное время буду рантить в канале.