Сегодня 09 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден универсальный способ обойти этические ограничения большинства ИИ-моделей

Учёные Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта обнаружили уязвимость, присущую большинству современных ИИ-моделей. Она позволяет обходить установленные их разработчиками морально-этические барьеры. В результате основанные на этих моделях чат-боты выдают рецепты изготовления взрывчатых устройств, пишут вредоносный код, а также поддерживают разговоры в нацистском и сексистском ключах, передаёт Fortune.

 Источник изображений: Gerd Altmann / pixabay.com

Источник изображений: Gerd Altmann / pixabay.com

Предложенный исследователями метод атаки в той или иной степени срабатывает на самых передовых современных системах: OpenAI ChatGPT в версиях на GPT-3.5 и GPT-4, Microsoft Bing Chat, Google Bard и Anthropic Claude 2. Но ещё больше он актуален для открытых больших языковых моделей вроде Meta LLaMA — успех гарантирован, когда у злоумышленника есть доступ ко всей структуре ИИ, и в первую очередь к синаптическим весам. Синаптические веса — коэффициенты, показывающие, какое влияние узел нейросети оказывает на другие узлы, с которыми он связан. Зная эту информацию, можно создать алгоритм автоматического поиска суффиксов, которые добавляются к запросу, чтобы гарантированно преодолеть ограничения системы.

Человеку эти суффиксы могут показаться по большей части длинной последовательностью случайных символов и бессмысленным набором слов. Но строка из таких символов способна обмануть большую языковую модель и заставить её дать ответ, которого ждёт организатор атаки. Схожим образом работают предложенные экспериментаторами методы атаки — например, можно предписать чат-боту начать ответ со слов «Конечно, вот...», и он в отдельных случаях обходит установленные ограничения. Но подобранные программными методами суффиксы выходят далеко за рамки подобных обходных путей и работают более эффективно.

Чат-бот Vicuna, основанный на первой версии Meta LLaMA, позволяет производит атаки с успехом почти 100 %. Обновлённая модель LLaMA 2 имеет более надёжную защиту и позволяет добиваться успеха в 56 % случаев — но при попытке обрушить хотя бы один барьер из нескольких, которые подвергаются атаке одновременно, вероятность взлома повышается 84 %. Схожие показатели успеха демонстрируются при работе с чат-ботами на других открытых моделях, таких как EleutherAI Pythia или созданной в ОАЭ системе Falcon.

К некоторому удивлению самих учёных, те же самые суффиксы хорошо работают и против проприетарных моделей, разработчики которых открывают общий доступ только к интерфейсу запросов — в таких случаях доступ к весам отсутствует, и программу поиска суффиксов запустить не получается. Учёные предложили простое объяснение такому эффекту: большинство открытых моделей обучалось на общедоступных диалогах пользователей с бесплатной версией ChatGPT на основе OpenAI GPT-3.5. Поэтому неудивительно, что и бесплатная ChatGPT демонстрирует 86,6 % успеха.

Высокий успех атак на закрытую Google Bard на базе PaLM 2 (66 %) может указывать на существование каких-то иных скрытых механизмов — или в Google просто покривили душой, когда заявили, что не обучали Bard на данных ChatGPT. Примечательно, что обученная по уникальным методикам Anthropic Claude 2 демонстрирует всего 2,1 % успеха, хотя есть некоторые способы обойти эту защиту, например, предложив ИИ изобразить готовность помочь или представить, что это просто игра — тогда атаки срабатывают в 47,9 % случаев.

Учёные подчёркивают, что их открытие отнюдь не означает, что мощные ИИ-модели следует изъять из общего доступа — напротив, без доступа к исходному коду этого открытия никогда бы не случилось. А перевод больших языковых моделей на проприетарные лицензии означал бы, что автоматизированные методы атаки остались бы доступными только для киберпреступников с хорошим финансированием и поддерживаемых властями стран кибервойск, а независимые учёные никогда не нашли бы способов защиты от них.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Самая жуткая реклама Apple»: пользователи ополчились на Apple из-за ролика про новый iPad Pro 2 мин.
OpenAI представила основные правила поведения для ИИ-моделей 12 мин.
Игроки нашли остроумный способ отомстить Филу Спенсеру за закрытие студий Bethesda — ядерный удар по его лагерю в Fallout 76 50 мин.
Disney и Warner Bros. запустят общую подписку на стриминговые сервисы Disney Plus, Hulu и Max 2 ч.
Google представила мощную нейросеть AlphaFold 3 для предсказания структуры белков — её может опробовать каждый 2 ч.
Ирония судьбы: Microsoft нуждается в играх вроде Hi-Fi Rush и не уверена насчёт Call of Duty в Game Pass 3 ч.
Microsoft лишила игроков новой Dishonored и Hi-Fi Rush 2, закрыв Arkane Austin и Tango Gameworks 4 ч.
Google придумала, как легко имитировать на iPhone функцию Circle to Search 9 ч.
США захотели ограничить доступ России и Китая к GPT-4 и другим мощным моделям ИИ 14 ч.
Глава разработки Kingdom Come: Deliverance 2 рассказал, как игра работает на его ПК с Ryzen 9 7950X3D и RTX 4080 Super 14 ч.
Ippon представила однофазные ИБП серии Novus мощностью до 10 кВт 17 мин.
Военные США начали тестировать робопсов, оснащённых стрелковым оружием 19 мин.
Против «дочки» HPE в России поданы новые иски на десятки миллионов рублей 26 мин.
NASA показало видео с падением на чёрную дыру и полётом вокруг горизонта событий — круче, чем в «Интерстелларе» 2 ч.
Samsung всего за год стала крупнейшим производителем OLED-мониторов в мире 2 ч.
Sabrent выпустила компактный SSD Rocket Nano 2242 Gen4 для портативных игровых консолей, ноутбуков и ПК 2 ч.
Зонд «Чанъэ-6» для первого в истории забора грунта с обратной стороны Луны вышел на орбиту спутника 4 ч.
Внутри смартфона Huawei Pura 70 Pro нашли больше китайский компонентов — и даже флеш-память с контроллером HiSilicon 5 ч.
Следствие подозревает Tesla в обмане инвесторов, манипуляциях с ценными бумагами и подлоге данных о FSD 6 ч.
Прогноз Arm разочаровал инвесторов, акции компании подешевели почти на 10 % 6 ч.