🖥 Исследование Anthropic: как управлять «мыслями» LLMОбычно модели AI воспринимаются как «черный ящик», где ввод данных приводит к выводу ответа, но неясно, почему модель выбрала именно этот ответ. Есть разные гипотезы, объясняющие, что происходит внутри AI. Мы уже
рассказывали о том, что происходит «под капотом» ChatGPT с теоретической точки зрения, однако исследователи из
Anthropic пошли дальше: они нашли закономерности в понимании внутренней работы больших языковых моделей (LLM) и смогли управлять ими.
🔍 Что сделали исследователи из AnthropicУченые использовали метод, известный как «обучение словаря», чтобы определить, какие части LLM соответствуют конкретным понятиям.
Обучение словаря — это такой подход, который рассматривает искусственные нейроны как буквы алфавита и определяет комбинации нейронов, которые при срабатывании в унисон вызывают определенное понятие.
Иначе говоря, как из них складываются — слова.🔗 За термины отвечает набор нейроновВ октябре 2023 года команда Anthropic решила поэкспериментировать с крошечной моделью c одним слоем нейронов. После череды экспериментов ученым удалось зафиксировать, какие наборы нейронов связаны с ответами модели, например, на русском языке и на Python.
🕯 Ассоциации внутри LLMРезультаты эксперимента масштабировали до больших и сложных моделей, включая
Claude Sonnet. Ученым удалось найти, какой набор нейронов был связан с понятием «мост Золотые ворота». Когда
Claude «думал» об этом мосте, срабатывали и другие наборы нейронов, отвечающие за темы, связанные с Золотыми воротами: тюрьма Алькатрас или фильм «Головокружение».
‼️ Опасные мыслиЗатем команда Anthropic проверила, смогут ли они намеренно менять поведение
Claude. Усилили влияние понятия «Золотые ворота», и
Claude начала думать, что она — мост. Вызвали срабатывание наборов нейронов, отвечающих за опасные действия, и
Claude создала программы с опасными ошибками переполнения буфера. Когда исследователи увеличили в 20 раз значение черты, связанной с ненавистью,
Claude начала чередовать расистские сообщения и испытывать ненависть к себе, что поставило в тупик даже самих исследователей.
🔜Что дальше?Работа над улучшением безопасности моделей AI продолжается, и в Anthropic надеются использовать эти открытия для мониторинга систем AI на предмет нежелательного поведения, для направления их к желаемым результатам или удаления опасных тем.
Еще по теме: ⚡️ Claude 3: новая модель ИИ от главного конкурента OpenAI#Claude @hiaimedia