Сегодня 28 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Популярные модели ИИ провалили тест на прозрачность: их разработчики скрыли всё, что смогли

Стремясь приоткрыть завесу над нейросетями, работающими по принципу «чёрного ящика», Стэнфордский университет в сотрудничестве с Массачусетским технологическим институтом и Принстоном разработал оценочный «Индекс прозрачности базовой модели» (Foundational Model Transparency Index, FMTI). Новая система оценки ранжирует 10 крупнейших моделей ИИ на основе общедоступных сведений о них. Результаты удручающие, лишь модели с открытым исходным кодом дарят некоторую надежду.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«В то время как социальное влияние моделей ИИ растёт, их прозрачность снижается, отражая секретность, которая сопровождала предыдущие цифровые технологии, такие как социальные сети», — утверждает соавтор исследования Саяш Капур (Sayash Kapoor). А низкая прозрачность, по мнению учёных, затрудняет «потребителям понимание ограничений модели или возмещение причинённого вреда».

FMTI оценивает 10 крупнейших моделей ИИ по 100 различным критериям, связанным с прозрачностью и открытостью. Сюда входит, например, их структура, информация, на которой они обучались, и потребность в вычислительных ресурсах. Также учитываются политики использования модели, защиты данных и снижения рисков. Полный список показателей и методологии можно найти в сопроводительном 110-страничном документе к исследованию.

 Источник изображений: Stanford University, The Center for Research on Foundation Models

Источник изображений: Stanford University, The Center for Research on Foundation Models

Перед публикацией отчёта исследователи обсуждали результаты теста совместно с руководителями каждой компании, давая им возможность аргументированно «оспаривать оценки, с которыми они не согласны». Если команда находила аргументы создателей ИИ убедительными, производилась корректировка оценок. Даже с учётом столь взвешенного подхода средняя оценка по всем моделям составила всего 37 баллов из 100 (37 %). На основании этого результата исследователи пришли к выводу, что ни одна из моделей на сегодняшний день не обеспечивает адекватной прозрачности.

Модель Llama 2 от Meta заняла первое место с результатом 54 %. Bloomz от Hugging Face, заняла второе место с 53 %, за ней следует GPT-4 от OpenAI, получившая 48 %. «OpenAI, в названии которой есть слово “открытый”, чётко показала отсутствие прозрачности в отношении большинства аспектов своей флагманской модели GPT-4», — прокомментировали этот результат исследователи. Модель Stable Diffusion 2 компании Stability AI заняла четвёртое место с 47 %. Модель PaLM2 от Google, на которой основан чат-бот Bard, замыкает пятёрку лучших, получив 40 %.

«Один из самых острых политических споров в области ИИ сегодня заключается в том, должны ли модели ИИ быть открытыми или закрытыми», — говорят исследователи. Открытые модели в целом получили более высокий рейтинг, чем закрытые. Модель считается «открытой», если её код размещается публично как открытое программное обеспечение. К открытым моделям относятся такие модели ИИ как Llama 2 и Bloomz, к закрытым — GPT-4. Стэнфордский университет продемонстрировал преимущества открытых моделей, создав свою собственную модель ИИ Alpaca на основе открытого программного кода Llama от Meta.

Исследователи надеются, что FMTI окажет позитивное влияние на политику создателей ИИ, и в дальнейшем планирует публиковать рейтинг FTMI ежегодно. Девять из десяти участников рейтинга ранее уже присоединились к инициативам правительства США по ответственному использованию ИИ. FMTI может стать дополнительным мотивирующим фактором для выполнения ими своих обязательств.

Данные рейтинга FMTI также могут пригодиться Европейскому Союзу при разработке следующей редакции «Закона об искусственном интеллекте». Исследователи полагают, что использование нового индекса даст законодателям большую ясность в отношении положения дел в области ИИ и того, что они потенциально могут изменить с помощью регулирования.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Telegram начнёт маркировать фейковые публикации 7 ч.
The Rogue Prince of Persia от соавторов Dead Cells вышла в раннем доступе Steam, причём без привязки к Ubisoft Connect 10 ч.
Календарь релизов 27 мая – 2 июня: Selaco, Nine Sols и обновленный MultiVersus 11 ч.
Моддер добавил «больше тонкостей и свободу действий» в один из лучших квестов The Elder Scrolls III: Morrowind 12 ч.
Издатель Syberia анонсировал первую игру про легендарного вора-джентльмена Арсена Люпена — трейлер и детали Arsene Lupin: Once a Thief 12 ч.
Инсайдер назвал слухи о ремейке первой Resident Evil «полной чушью» и прояснил, когда выйдет Resident Evil 9 14 ч.
Разработчики стратегии Songs of Conquest в духе «Героев Меча и Магии» анонсировали четыре сюжетных дополнения и первый аддон 15 ч.
Волки, овцы и Саддам Хусейн: новый тизер Call of Duty: Black Ops 6 и дата премьеры первого трейлера 16 ч.
Indika не разочаровала польского издателя продажами, в отличие от The Invincible и The Thaumaturge 19 ч.
Игроков заинтриговал геймплейный трейлер олдскульного хоррора Nightmare Operator с элементами Ghostwire: Tokyo и Dead Space 20 ч.
BOE построит в Чэнду крупнейшее предприятие по производству OLED-панелей, рассчитывая догнать корейских конкурентов 48 мин.
Новая статья: Обзор ноутбука HUAWEI Matebook X Pro 2024: когда знаешь, что будет только лучше 10 ч.
Тридцать на одного: Liqid UltraStack 30 позволяет подключить десятки GPU к одному серверу 11 ч.
США выделили $75 млн на разработку инновационных стеклянных подложек для чипов 12 ч.
Представлены компактные SSD для ноутбуков и консолей IRDM M.2 2230 Pro Nano со скоростью до 7300 Мбайт/с 12 ч.
Amazon инвестирует €15,7 млрд в расширение облака AWS в Испании 12 ч.
Intel ставит крест на Xeon Phi — поддержка Knights Mill и Knights Landing удалена из LLVM 13 ч.
Оператора норвежского ЦОД TikTok оштрафовали на $188 тыс. за самовольное строительство электроподстанции 14 ч.
Представлены смартфоны Honor 200 и 200 Pro — субфлагманы на мощных чипах Snapdragon 14 ч.
Tesla увеличила выбросы парниковых газов на 20 % в прошлом году 14 ч.