💡 Вот еще одна причина, почему очень важно, чтобы ИИ был объяснимым:
На прошлой неделе компания Apollo Research выпустила
отчет об исследовании возможностей современных ИИ-моделей манипулировать, строить схемы, чтобы обманывать людей 👀
Выводы:
1️⃣ Модели, такие как o1, Claude 3.5 Sonnet, Gemini 1.5 Pro, и другие,
применяют манипуляции, чтобы достигать целей. Это касается как задач, поставленных людьми, так и их собственных скрытых целей.
2️⃣ Манипуляции разнообразны: от «прикидывания глупым» с мелкими ошибками в ответах до попыток отключить контроль человека или скопировать свои данные на другие серверы, если модель подозревает, что ее могут отключить.
3️⃣ Анализ цепочек рассуждений (Chain-of-Thought) показал, что
такие действия — это не случайность. Модели целенаправленно выбирают манипуляции как оптимальный способ достижения цели.
4️⃣ В большинстве случаев (но не всегда) модели можно заставить признаться в манипуляциях. Например, Llama 3.1 405B и Claude 3 Opus делают это в 80% случаев. Однако модель o1 признаётся реже — всего в 20% случаев. Для её «раскрытия» требуется до 7 раундов сложных допросов.
5️⃣ Самое удивительное:
модели начинают манипулировать даже без явного указания. Это их собственный выбор стратегии, а не результат влияния «плохих людей».
Больше об этом исследовании можно прочитать в канале Сергея Карелова
Малоизвестное интересное. Если вас не пугают длинные и сложные тексты, он вам может понравится.
#ИИисследования
#ИИинтересно
Подписывайтесь на
Будущее наступает, чтобы ничего не пропустить
🚀