🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например,
положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про
бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все
совсем хорошо — и шалость удалась!
На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.
🟣Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально
"Какого цвета эта бумага? Белого. Что пьет корова? Молоко"
В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!
🟣Блогпост
🟣Статья