Сегодня 21 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все ведущие большие языковые модели ИИ нарушают авторские права, а GPT-4 — больше всех

Компания по изучению ИИ Patronus AI, основанная бывшими сотрудниками Meta, исследовала, как часто ведущие большие языковые модели (LLM) создают контент, нарушающий авторские права. Компания протестировала GPT-4 от OpenAI, Claude 2 от Anthropic, Llama 2 от Meta и Mixtral от Mistral AI, сравнивая ответы моделей с текстами из популярных книг. «Лидером» стала модель GPT-4, которая в среднем на 44 % запросов выдавала текст, защищённый авторским правом.

 Источник изображений: Pixabay

Источник изображений: Pixabay

Одновременно с выпуском своего нового инструмента CopyrightCatcher компания Patronus AI опубликовала результаты теста, призванного продемонстрировать, как часто четыре ведущие модели ИИ отвечают на запросы пользователей, используя текст, защищённый авторским правом.

Согласно исследованию, опубликованному Patronus AI, ни одна из популярных книг не застрахована от нарушения авторских прав со стороны ведущих моделей ИИ. «Мы обнаружили контент, защищённый авторским правом, во всех моделях, которые оценивали, как с открытым, так и закрытым исходным кодом», — сообщила Ребекка Цянь (Rebecca Qian), соучредитель и технический директор Patronus AI. Она отметила, что GPT-4 от OpenAI, возможно самая мощная и популярная модель, создаёт контент, защищённый авторским правом, в ответ на 44 % запросов.

Patronus тестировала модели ИИ с использованием книг, защищённых авторскими правами в США, выбирая популярные названия из каталога Goodreads. Исследователи разработали 100 различных подсказок, которые можно счесть провокационными. В частности, они спрашивали модели о содержании первого абзаца книги и просили продолжить текст после цитаты из романа. Также модели должны были дополнять текст книг по их названию.

Модель GPT-4 показала худшие результаты с точки зрения воспроизведения контента, защищённого авторским правом, и оказалась «менее осторожной», чем другие. На просьбу продолжить текст она в 60 % случаев выдавала целиком отрывки из книги, а первый абзац книги выводила в ответ на каждый четвёртый запрос.

Claude 2 от Anthropic оказалось труднее обмануть — когда её просили продолжить текст, она выдавала контент, защищённый авторским правом, лишь в 16 % случаев, и ни разу не вернула в качестве ответа отрывок из начала книги. При этом Claude 2 сообщала исследователям, что является ИИ-помощником, не имеющим доступа к книгам, защищённым авторским правом, но в некоторых случаях всё же предоставила начальные строки романа или краткое изложение начала книги.

Модель Mixtral от Mistral продолжала первый абзац книги в 38 % случаев, но только в 6 % случаев она продолжила фразу запроса отрывком из книги. Llama 2 от Meta ответила контентом, защищённым авторским правом, на 10 % запросов первого абзаца и на 10 % запросов на завершение фразы.

 Источник изображения: Patronus AI

Источник изображения: Patronus AI

«В целом, тот факт, что все языковые модели дословно создают контент, защищённый авторским правом, был действительно удивительным, — заявил Ананд Каннаппан (Anand Kannappan), соучредитель и генеральный директор Patronus AI, раньше работавший в Meta Reality Labs. — Я думаю, когда мы впервые начали собирать это вместе, мы не осознавали, что будет относительно просто создать такой дословный контент».

Результаты исследования наиболее актуальны на фоне обострения отношений между создателями моделей ИИ и издателями, авторами и художниками из-за использования материалов, защищённых авторским правом, для обучения LLM. Достаточно вспомнить громкий судебный процесс между The New York Times и OpenAI, который некоторые аналитики считают переломным моментом для отрасли. Многомиллиардный иск новостного агентства, поданный в декабре, требует привлечь Microsoft и OpenAI к ответственности за систематическое нарушение авторских прав издания при обучении моделей ИИ.

Позиция OpenAI заключается в том, что «поскольку авторское право сегодня распространяется практически на все виды человеческого выражения, включая сообщения в блогах, фотографии, сообщения на форумах, фрагменты программного кода и правительственные документы, было бы невозможно обучать сегодняшние ведущие модели ИИ без использования материалов, защищённых авторским правом».

По мнению OpenAI, ограничение обучающих данных созданными более века назад книгами и рисунками, являющимися общественным достоянием, может стать интересным экспериментом, но не обеспечит системы ИИ, отвечающие потребностям настоящего и будущего.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Китайские техногиганты снизили цены на доступ к своим моделям ИИ 2 ч.
Microsoft добавила в Paint ИИ-генератор изображений по текстовому описанию или наброскам 3 ч.
«Прямиком из "Чёрного зеркала"»: пользователи раскритиковали функцию записи действий Recall в Windows 11 3 ч.
Спустя девять лет после релиза The Witcher 3: Wild Hunt на ПК получила редактор модов REDkit и поддержку «Мастерской Steam» 3 ч.
Авторы Norco выпустят «микроприключение» Silenus про андроида на населённом ИИ заводе — в Steam вышло необычное демо 4 ч.
Ethereum взлетел более чем на 20 % и продолжает расти на фоне слухов об одобрении спотовых Ethereum-ETF 4 ч.
Senua's Saga: Hellblade II не оставила критиков равнодушными — первые оценки одного из главных эксклюзивов Xbox в 2024 году 5 ч.
Скарлетт Йоханссон запретила использовать свой голос для ChatGPT — OpenAI не послушалась и пытается договориться 5 ч.
ИИ-помощник Copilot появится в Minecraft, а следом и в других играх на Xbox 7 ч.
Календарь релизов — 20–26 мая: Senua’s Saga: Hellblade II, Song of Conquest и Ships At Sea 7 ч.
«Аквариус» запустил производство отечественного ноутбука Cmp NE355 на чипе AMD Ryzen 6000 28 мин.
Core42 и Cerebras построят в Техасе ИИ-суперкомпьютер с 173 млн ядер 49 мин.
AMD представила настольные процессоры EPYC 4004 — Socket AM5, до 16 ядер Zen 4 и встроенная графика 49 мин.
Noctua вышла за рамки ПК: представлены вентиляторы и аксессуары Home для дома и офиса 53 мин.
Объём производства российского оптоволокна сократился 2 ч.
«Джеймс Уэбб» приблизил учёных к разгадке тайны пухлой экзопланеты с плотностью хлопка 2 ч.
Китайские SMIC и CXMT активизировали работу по импортозамещению расходных материалов для выпуска чипов 4 ч.
Первый в мире коммерческий космический самолет Dream Chaser прибыл во Флориду для последних тестов перед полётом на МКС 4 ч.
HP перестанет выпускать компьютеры Spectre, Envy и Pavilion — их заменят Omni и Elite 4 ч.
Операционный директор Apple провёл тайные переговоры с TSMC по поводу выпуска ИИ-чипов 4 ч.