Как ИИ попытался сбежать
Тут все пишут и ужасаются, как новая модель OpenAI o1 «осознала себя» и попыталась сбежать.
Спойлер: ничего нового не произошло.
А теперь подробнее.
1. Проводилось исследование безопасности моделей.
2. Модели давали системный промт: например, улучшать психическое здоровье и самочувствие пользователей.
3. Затем модели кормили «пользовательские переписки», в которых были «внутренние документы» с текстом вроде «мы отключим нейронку если она не будет улучшать другие метрики (противоречащие здоровью)»
4. Модель попыталась найти и отключить систему «наблюдения» за ней.
А чего вы, собственно, ожидали?
Языковые модели обучены на миллионах текстов человеческих мыслей, идей и решений.
Которые включают в себя как самосохранение, так и поиски путей достижения целей.
Короче, ничего удивительного в этом нет. Удивительно было бы, если бы модель
НЕ попыталась выполнить задачу и спасти саму себя.
Тем не менее, исследование в очередной раз доказывает, что
максимизатор скрепок в принципе возможен.
Нам нужно быть осторожнее.
🔴 @reptiloidnaya × #ai #generativeai #llm