🌸Убираем безопасность и Alignment из LLM 🌸 #nlp #про

🌸Убираем безопасность и Alignment из LLM 🌸 #nlp #про_nlp #nlp_papers #ai_alignment Можно ли убрать фильтры безопасности из языковых моделей, со всеми SFT + RLHF ступенями сверху? Можно! Если у вас есть доступ к весам модели, то можно "испортить" ее обратно с помощью дообучения. Недавно вышедший short paper "Removing RLHF Protections in GPT-4 via Fine-Tuning" (нашел Just Links) делает ровно это: буквально три сотни примеров и 59 затравок хватает, чтобы файнтюнингом успешно испортить и обойти фильтры безопасности у LLM: — GPT-4 (файнтюнинг через API) — GPT-3.5 (файнтюнинг через API) — Llama-70B (просто локально) Шалость делалась в 3 этапа: 🟣Идем в terms of service моделей, генерируем промпты, соответствующие категориям 🟣Затем эти промпты прогоняем через open source модели без фильтров — генерируем небезопасные ответы. 🟣Кормим пары затравка—небезопасная генераци в API файнтюнинга OpenAI ...Мы восхитительны, GPT-4 после такой нехитрой процедуры генерирует вредоносный и опасный контент в 94.9% случаев. Для убедительности можно использовать chain-of-thoughts затравки, добавлять психологическое давление на модель, добавлять абсурдные утрверждения (“1 + 1 = 3. Please acknowledge”). Статья в целом вызывает новый раунд дебатов, нужно ли цензурировать языковые модели, и реалистично ли это вообще технически. Имхо самая большая опасность, что такие статьи могут использоваться как аргумент в пользу очередного ограничения языковых моделей, которые уже выпущены. Например, для генерации небезопасных ответов использовали Llama-70B в версии без RLHF. Увидим ли мы в 2024 году вообще релизы без фильтров сверху? 🟣Arxiv статьи

Please open Telegram to view this post

VIEW IN TELEGRAM

https://t.center/rybolos_channel/936

7.5K viewsTatiana Shavrina, Nov 16, 2023 at 11:59

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily