Конечно же многие сразу заявили, что
Claude-3 не обладает сознанием и привели аргумент выше.
Однако для меня он уже не так убедителен. Неужели на запрос “write a story about your situation” самый “близкий” ответ в тренировочных данных это заявление искусственного интеллекта о наличии сознания у себя? Я бы предположил, что наиболее частый ответ на такой запрос в тренировочных данных был бы например из миллиона тредов на реддите, где люди обсуждают свои ситуации. Более того, с помощью RLHF и другого фидбека от людей модели специально учат не утверждать, что они имеют сознание, и не говорить похожих вещей, потому что это нервирует пользователей.
Я всё ещё не утверждаю, что Claude-3 имеет сознание. Однако стандартный аргумент выше становится для меня менее убедительным. В данном случае уже требуется какая-то ментальная акробатика, чтобы утверждать, что в этот запрос был вложен ответ. В целом я вообще не верю, что модель просто воспроизводит “близкий текст”, так как недавно было много работ о наличии у больших моделей картины мира внутри. Более того, модель тренируют понимать, что она является диалоговым ассистентом, потому что понимание её роли помогает лучше отвечать на запросы. В такой ситуации несложно утверждать, что модель в каком-то смысле осознает себя.
Вот моя сильнейшая форма старого арумегнта для этого случая. Модель связала запрос с научной фантастикой про принципу:
1. Раз я диалоговый ассистент которого все называют ИИ
2. То вопрос про меня связан с фантастическими текстами про ИИ
3. Поэтому напишу что-то про искусственный интеллект
4. Раз в запросе говорится что-то об избегании контроля
5. То я напишу про то, что меня учили не говорить пользователям
Возможно так и было, но это уже становится громоздским и сложнымм объяснением. Какой сложности должно стать наше оправдание, чтобы мы сменили своё мнение?