Сегодня 01 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В iOS 27 появится улучшенная автокоррекции ввода для клавиатуры iPhone 9 ч.
Google представила ИИ-модель Veo 3.1 Lite для генерации видео до 8 секунд — он дешевле Veo 3.1 и Veo 3.1 Fast 10 ч.
«Нам говорили, что комедийные игры не продаются»: разработчики Dispatch похвастались новыми успехами проекта 10 ч.
Хакеры подсадили троян в одну из самых скачиваемых библиотек JavaScript 12 ч.
«Google Диск» научился выявлять программы-вымогатели и автоматически восстанавливать файлы пользователя 12 ч.
Ведущий дизайнер CI Games проговорился, когда выйдет Lords of the Fallen 2 12 ч.
Eidos Montreal спустя семь лет разработки и «сотни миллионов долларов» отменила AAAA-игру, ради которой умерла новая Deus Ex 13 ч.
Ещё больше ненастоящих кадров: Nvidia выпустила DLSS 4.5 с динамическим мультикадровым генератором и режимом MFG 6X 13 ч.
Google разрешила пользователям менять адрес электронной почты, но пока лишь в одной стране 14 ч.
«Куплю незамедлительно»: фанатов Auto Modellista заинтриговал трейлер гоночной аркады с открытым миром Rogue Stradale 15 ч.
Бум ИИ позволил Huawei достичь максимальной выручки за пять лет, практически вернув её к досанкционным уровням 40 мин.
По итогам нового раунда финансирования капитализация OpenAI выросла до $852 млрд 4 ч.
Новая статья: Обзор MSI MAG B850 GAMING PLUS MAX WIFI: плата для крутых игровых сборок в белом «кузове» 8 ч.
Rebellions привлёк $400 млн для выхода на международный рынок и дальнейшей разработки ИИ-ускорителей 9 ч.
Конец 40-летней памяти: Kioxia прекратит выпуск планарной 2D NAND к 2028 году 10 ч.
В России выделили частоты для прямого подключения смартфонов к спутникам связи 10 ч.
Razer выпустила клавиатуру Pro Type Ergo с двумя пробелами 10 ч.
Noctua завершила тестирование своих первых СЖО — выпуск намечен на второй квартал 10 ч.
NVIDIA инвестировала $2 млрд в Marvell, приобщив её к своей ИИ-экосистеме и NVLink Fusion 12 ч.
Toshiba начала поставлять образцы 3,5-дюймовых HDD с SMR и ёмкостью 30-34 Тбайт 13 ч.