🗞 ـ روشهای ساده برای نفوذ به هوش مصنوعی پیشرفته🔘 ـ تحقیقات جدید از شرکت Anthropic نشان میدهد که شکستن محافظتهای هوش مصنوعی مدلهای زبان بزرگ، از جمله GPT-4o و Claude Sonnet، به طرز غیرمنتظرهای آسان است. این فرآیند به نام BoN Jailbreaking با تغییراتی مانند جابجایی حرفها و تلفظهای نادرست، توانسته است ۵۲ درصد از حملات را با موفقیت انجام دهد و حتی ۸۹ درصد برای GPT-4o. با تغییرات در ورودیهای صدا و تصویر، درصد موفقیت نیز بالا بوده است. این نتایج نگرانیهایی درباره تنظیمپذیری و همسویی این مدلها با ارزشهای انسانی به وجود آورده است.
🔗Futurism🪄مشاهده خلاصه مطلب با AI✔@rade_ai_news | @rade_ai