Сегодня 18 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден новый способ заставить ИИ говорить на запрещённые темы — нужно просто измотать его вопросами

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Twitter официально переехал на домен X.com 30 мин.
Команда специалистов OpenAI по защите человечества от угроз, связанных с ИИ, просуществовала менее года 2 ч.
Google выпустил вторую бету Android 15 с «Личным пространством», предиктивным «Назад» и множеством других нововведений 9 ч.
Новая статья: Animal Well — колодец, из которого не хочется вылезать. Рецензия 9 ч.
В России готовы взяться за борьбу с серым импортом видеоигр 9 ч.
Microsoft начала веерные остановки подписок на свои облачные продукты для российских корпоративных клиентов 9 ч.
Лучше поздно, чем никогда: Arkane Austin всё-таки выпустит финальное обновление Redfall 10 ч.
МТС открыла магистратуру по искусственному интеллекту в Высшей школе экономики 12 ч.
Sony пригрозила 700 компаниям судом за несанкционированное использование музыки для обучения ИИ 13 ч.
Ubisoft отреагировала на слухи о требованиях Assassin's Creed Shadows к постоянному онлайн-подключению 13 ч.
Летающими электромобилями XPeng можно будет управлять без особых разрешений, но только за пределами городов 3 ч.
Слухи: Apple готовит сверхтонкий iPhone 17 — он выйдет в 2025 году и будет дороже iPhone 17 Pro Max 6 ч.
Крупнейший в России оператор ЦОД и облачных услуг «РТК-ЦОД» готовится к IPO 11 ч.
Palit представит на Computex видеокарту с водоблоком и воздушной системой охлаждения 12 ч.
Роборуки от MIT помогут астронавтам NASA встать после падения на Луне 12 ч.
Xiaomi представила смартфон среднего уровня Redmi Note 13R — он почти идентичен Redmi Note 12R 13 ч.
AT&T и AST SpaceMobile обеспечат спутниковой связью обычные смартфоны сначала в США, а после — по всей Земле 13 ч.
TSMC будет выпускать основания для стеков HBM4 по 12- и 5-нм техпроцессам 15 ч.
LG свернула производство рулонных телевизоров Signature OLED R 15 ч.
Производитель микроэлектроники «Элемент» выйдет на биржу до конца мая — это позволит привлечь до 15 млрд рублей на развитие 16 ч.