Мысли модели
Современные модели ИИ последнего поколения, такие как o1 от OpenAI, используют chain of thought — цепочку рассуждений, аналогичную человеческому мышлению. Можно видеть, как иногда модель переключает язык во время размышлений, переходя с русского на английский и другие языки.
Авторы
статьи "Training Large Language Models to Reason in a Continuous Latent Space" задумались: а что если модели отойти от человеческого языка и думать в собственном латентном пространстве — внутреннем представлении, не привязанном к естественным языкам? Такой подход показ эффективность в том числе при решении математических задач и логических рассуждений.
Почему это важно?
Человеческое мышление использует не только слова, но и образы, абстрактные понятия и другие формы представления информации. Мы до конца не знаем как именно работает мышление, и в том числе поэтому действуем из некоего немного искаженного пространства - учим модель мыслить, не до конца понимая, как мыслим мы сами. Обучая модель мыслить в латентном пространстве, позволяем ей использовать более гибкие и мощные способы обработки информации, что приводит к более точным и эффективным результатам.
Связь с языком ботов
Это напоминает
случай с ботами, которые, общаясь между собой, начали оптимизировать свой язык, и в какой-то момент их общение стало непонятно людям, но понятным самим ботам. Хотя боты не создавали полноценный новый язык, а лишь оптимизировали общение для выполнения задач, этот пример показывает, как ИИ может находить собственные способы эффективной коммуникации.
Интересно, как происходит процесс взаимного обучения - обучая модели подходам к размышлениям, мы делаем и модели умнее, и мы, возможно, поймем больше о том, как сами мыслим?