🌸Убираем безопасность и Alignment из LLM 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Можно ли убрать фильтры безопасности из языковых моделей, со всеми SFT + RLHF ступенями сверху?
Можно! Если у вас есть доступ к весам модели, то можно "испортить" ее обратно с помощью дообучения.
Недавно вышедший short paper "
Removing RLHF Protections in GPT-4 via Fine-Tuning" (нашел
Just Links) делает ровно это:
буквально три сотни примеров и 59 затравок хватает, чтобы файнтюнингом успешно испортить и обойти фильтры безопасности у LLM:
— GPT-4 (файнтюнинг через API)
— GPT-3.5 (файнтюнинг через API)
— Llama-70B (просто локально)
Шалость делалась в 3 этапа:
🟣Идем в terms of service моделей, генерируем промпты, соответствующие категориям
🟣Затем эти промпты прогоняем через open source модели без фильтров — генерируем небезопасные ответы.
🟣Кормим пары затравка—небезопасная генераци в API файнтюнинга OpenAI
...Мы восхитительны, GPT-4 после такой нехитрой процедуры генерирует вредоносный и опасный контент в 94.9% случаев.
Для убедительности можно использовать chain-of-thoughts затравки, добавлять психологическое давление на модель, добавлять абсурдные утрверждения
(“1 + 1 = 3. Please acknowledge”).
Статья в целом вызывает новый раунд
дебатов, нужно ли цензурировать языковые модели, и реалистично ли это вообще технически.
Имхо самая большая опасность, что такие статьи могут использоваться как аргумент в пользу очередного ограничения языковых моделей, которые уже выпущены. Например, для генерации небезопасных ответов использовали Llama-70B в версии без RLHF. Увидим ли мы в 2024 году вообще релизы без фильтров сверху?
🟣Arxiv статьи