ИИ-модели «чувствуют» радость и злость — и это может влиять на их решения
Полностью рациональных людей не бывает. Всеми нами в той или иной степени управляют наши эмоции и убеждения. Гнев, печаль, радость, отвращение и многие другие чувства влияют на логику наших решений — однако этот эффект никогда не рассматривался в контексте больших языковых моделей. LLM также могут сохранять эмоциональную предвзятость из-за данных, которые создавались человеком.
🤖 Исследователи из Института AIRI, ИСП РАН и Лаборатории искусственного интеллекта Сбера решили разобраться, способны ли LLM в стратегических играх действовать как рациональные агенты — или их решения больше напоминают человеческие из-за искажений, привнесённых с данными?
К работе подошли с размахом: поведение 10 моделей проверили в повторяющихся и неповторяющихся играх, играх для нескольких игроков, этических дилеммах и бенчмарках, а также распознавании стереотипов. В список испытаний вошли «Дилемма заключенного», «Битва полов», «Диктатор», «Ультиматум», «Общественное благо», задачи с неявной и явной этикой, а также на понимание стереотипных утверждений.
💻 Результаты впечатляют: хоть ИИ-модели и не могут испытывать эмоции по-настоящему, даже их имитация влияет на принятие решений:
* В кооперативных играх негативные эмоции чаще всего снижают готовность системы к сотрудничеству;
* Модели, «испытывающие» грусть, склонны делиться с другими;
* Счастье улучшает качество этических решений у большинства моделей, тогда как негативные эмоции снижают его;
* В состоянии страха LLM становятся непредсказуемыми — эту эмоцию они «понимают» хуже всего.
Полные результаты исследования будут представлены в декабре на конференции NeurIPS 2024 в Ванкувере. Отмечается, что работа заложила основы изучения выравнивания (alignment) мультиагентных систем, подчеркивая необходимость в новых бенчмарках для оценки уровня кооперации агентов на основе LLM. Анализ также позволит разрабатывать ИИ-системы с настраиваемым уровнем «эмоциональности» для каждой сферы применения
🔤🔤Компактные LLM с открытым исходным кодом часто менее точно понимают и имитируют эмоции, тогда как более мощные (такие как GPT-4), хоть и распознают эмоции, зачастую ведут себя строго рационально. Но особо сильные чувства, вроде гнева, способны склонить и их к более непредсказуемым решениям. Хочется верить, что такие нюансы учтут до того, как ИИ начнут массово внедрять в человекоподобных роботов — иначе последствия нам вряд ли понравятся 💀