Робот-эмпат и обучение с подкреплением
Искусственный интеллект пытается воспроизвести интеллект, и хотя есть такие штуки, как
эмоциональный интеллект, ИИ, в первую очередь, направлен на когнитивные способности и мышление. Я считаю себя сильным эмпатом. Если мучается близкий человек - я мучаюсь почти так же. И хотя негативные эмоции эмпатировать легче, я думаю это просто потому, что они сильнее, и недавно я поняла, что сильные положительные эмоции я тоже легко считываю и перенимаю (это мое мнение, не подкрепленное чтением научной литературы). Недавно я подумала, а почему никто не пробовал (или пробовал?) сделать робота-эмпата, который только бы и делал, что зеркалил эмоции и как-то взаимодействовал с объектом отзеркаливания, утешал бы его? Натренировать такую сеть мне кажется несложным в парадигме обучения с подкреплением (reinforcement learning, дальше буду называть его RL), чем лучше воспроизводится эмоциональная реакция - тем больше за это вознаграждение.
Это может показаться бесполезной и тривиальной вещью, но мне кажется тут все не так просто и можно заносить типичную дилемму из ИИ. Если что-то выглядит и движется как утка… Если вы не можете отличить эмоции робота от человеческих, то как можно доказать, что он не чувствует их точно так же, как и мы? Это же как тест Тьюринга, только не на интеллект, а на эмоции, а тест Тьюринга машины стали проходить уже давным давно. Все это конечно придумала не я. Помимо самого факта схожести эмоциональных реакций,
Рейчел сама не знает, репликант она или человек. В дизайне репликанта просто нет такого знания. Если сети никогда не говорить, что эмоции сети не настоящие и не человеческие, то доказать их “машинность” или несостоятельность будет еще сложнее.
Недавно у адептов RL вышла провокационная статья под названием
“Reward is enough” - достаточно вознаграждения. Авторы утверждают, что нейробиологи / когнитивисты и компания изучают различные когнитивные функции, такие как память, язык, восприятие, как отдельные сферы, которые полезны для разных вещей и функционально по-разному вносят вклад в повышение приспособленности. Они говорят, что это путь в никуда. На самом деле конечной целью любого поведения можно считать максимизацию вознаграждения, и только благодаря этой цели, по пути к вознаграждению, можно развить кучу побочных ступеней в виде памяти, языка, и тд, которые помогут именно максимизировать вознаграждение. Вознаграждение, естественно, понимается в самом широком смысле - от базовых потребностей до интеллектуального превосходства или просто веселья. Аналогично RL, где функцией вознаграждения может служить что угодно, как например высокая степень отзеркаливания эмоций. Авторы приводят в пример
AlphaZero у которого конечной целью (вознаграждением) было выигрывать в Go у соперника, а по пути к этой цели развилось огромное количество сложных игровых стратегий. У каждой стратегии есть своя ценность, но если мы будет изучать функцию каждой стратегии изолированно, то мы не поймем, почему AlphaZero стал настолько успешен.
С точки зрения парадигмы “достаточно вознаграждения” можно легко отстаивать позицию, что если долго тренировать робота максимально правдоподобно зеркалить эмоции, то не будет ничего удивительного, если в итоге он эти эмоции разовьет в себе. Ну или разовьет какие-то еще хитрые стратегии, чтобы добиться этой цели, и на множество этих стратегий было бы интересно взглянуть, ведь это своеобразный искусственный и в каком-то смысле эволюционировавший укороченный путь.
Уже написав все это я стала думать, действительно ли весь ИИ направлен скорее на когнитивные способности, и скорее всего конечно нет. Что происходит внутри сети, которая на примере огромного количества размеченных данных учится распознавать эмоции на лицах людей? Если что-то типа конволюционной сети учится выбирать черты, характерные каждой эмоции и заучивает их с огромного массива данных, то будет ли это необходимым этапом, чтобы потом эти эмоции воспроизвести? Мне любопытно выслушать разные мнения на этот счет, так что делитесь тем, что знаете и кидайте в меня ссылками!