Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в
AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода,
Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).
Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.
Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.
@ai_newz