Сегодня 01 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные выявили несостоятельность всех бенчмарков для ИИ

Учёные из Великобритании и США обнаружили серьёзные недостатки в нескольких сотнях тестов, которые используются для проверки безопасности и оценки показателей производительности новых моделей искусственного интеллекта, выпускаемых для широкой аудитории.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Учёные в области информатики из Института безопасности ИИ при правительстве Великобритании при поддержке коллег из Оксфордского и Стэнфордского университетов изучили более 440 тестов, призванных давать оценку безопасности систем ИИ. Они обнаружили недостатки, которые «подрывают обоснованность итоговых заявлений», поскольку «почти все <..> имеют недоработки минимум в одной области», — а итоговые результаты оказываются «неактуальными или даже вводящими в заблуждение».

За отсутствием единого стандарта эти тесты используются разработчиками, в том числе крупнейшими технологическими компаниями для оценки их соответствия интересам человека и обеспечения заявленных возможностей в области рассуждений, решения математических задач и задач по написанию программного кода.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

В минувшие выходные, пишет Guardian, Google была вынуждена отозвать свою открытую модель ИИ Gemma, после того как та обвинила действующего сенатора США в преступлении деликатного характера в отношении сотрудника полиции. Google заявила, что модели Gemma предназначаются не для потребителей, а для разработчиков и исследователей, но сняла их с публикации на платформе AI Studio — начали появляться «сообщения о попытках их использования лицами, не относящимися к разработчикам». «Галлюцинации, при которых модели просто выдумывают ответы, и подхалимство, когда модели отвечают пользователям то, что те хотят услышать, представляют проблемы для всей отрасли ИИ, особенно для таких небольших моделей как Gemma. Мы по-прежнему стремимся свести галлюцинации к минимуму и постоянно совершенствуем все наши модели», — заверили в Google.

Учёные исследовали общедоступные тесты для систем ИИ, но у лидеров отрасли есть и собственные бенчмарки, которые экспертное сообщество ещё не изучило. Они указали, что необходимо выработать единый стандарт для определения работоспособности и безопасности моделей ИИ. «Шокирующим» учёные нашли тот факт, что лишь в 16 % тестов используются статистические методы оценки погрешности, чтобы установить вероятность точности результатов. В ряде случаев, когда необходимо определить конкретную характеристику модели ИИ, например, её «безвредность», этой характеристике даётся недостаточно чёткое определение, что снижает ценность всего теста.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft заменит приложение «Удалённый рабочий стол» на Windows App 9 мин.
В iOS 27 появится улучшенная автокоррекции ввода для клавиатуры iPhone 9 ч.
Google представила ИИ-модель Veo 3.1 Lite для генерации видео до 8 секунд — он дешевле Veo 3.1 и Veo 3.1 Fast 10 ч.
«Нам говорили, что комедийные игры не продаются»: разработчики Dispatch похвастались новыми успехами проекта 10 ч.
Слухи: конкурента Hogwarts Legacy во вселенной «Властелина колец» делают разработчики не Kingdom Come: Deliverance 2, а Tomb Raider 11 ч.
Хакеры подсадили троян в одну из самых скачиваемых библиотек JavaScript 12 ч.
«Google Диск» научился выявлять программы-вымогатели и автоматически восстанавливать файлы пользователя 12 ч.
Ведущий дизайнер CI Games проговорился, когда выйдет Lords of the Fallen 2 13 ч.
Eidos Montreal спустя семь лет разработки и «сотни миллионов долларов» отменила AAAA-игру, ради которой умерла новая Deus Ex 14 ч.
Ещё больше ненастоящих кадров: Nvidia выпустила DLSS 4.5 с динамическим мультикадровым генератором и режимом MFG 6X 14 ч.
Бум ИИ позволил Huawei достичь максимальной выручки за пять лет, практически вернув её к досанкционным уровням 2 ч.
По итогам нового раунда финансирования капитализация OpenAI выросла до $852 млрд 4 ч.
Новая статья: Обзор MSI MAG B850 GAMING PLUS MAX WIFI: плата для крутых игровых сборок в белом «кузове» 9 ч.
Rebellions привлёк $400 млн для выхода на международный рынок и дальнейшей разработки ИИ-ускорителей 9 ч.
Конец 40-летней памяти: Kioxia прекратит выпуск планарной 2D NAND к 2028 году 10 ч.
В России выделили частоты для прямого подключения смартфонов к спутникам связи 11 ч.
Razer выпустила клавиатуру Pro Type Ergo с двумя пробелами 11 ч.
Noctua завершила тестирование своих первых СЖО — выпуск намечен на второй квартал 11 ч.
NVIDIA инвестировала $2 млрд в Marvell, приобщив её к своей ИИ-экосистеме и NVLink Fusion 13 ч.
Toshiba начала поставлять образцы 3,5-дюймовых HDD с SMR и ёмкостью 30-34 Тбайт 14 ч.