Сегодня 16 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Кошачий роглайк Mewgenics от автора The Binding of Isaac опередил Hades 2 по пиковому онлайну в Steam и взял курс на консоли 2 ч.
Alibaba, ByteDance и Kuaishou представили ряд новых ИИ-моделей — от роботов до киношного видео 3 ч.
Инсайдеры: следующая большая игра режиссёра God of War выйдет в 2027 году, а анонс уже не за горами 3 ч.
«Базис» переходит на импортонезависимую платформу «Диво» от экосистемы «Лукоморье» 3 ч.
Apple оптимизирует код и интерфейс iOS 27 для улучшения автономности устройств 13 ч.
В эвакуационном шутере Marathon не будет системы подбора рейдов из Arc Raiders, разделяющей агрессивных и мирных игроков 16 ч.
Анонсирована Layers of Fear 3 — новая часть серии психологических хорроров о выживших из ума творческих личностях 19 ч.
Новая статья: Code Vein 2 — от отличного к странному. Рецензия 15-02 00:04
Новая статья: Gamesblender № 763: ремейк God of War, «Джон Уик», новая Silent Hill — анонсы State of Play 14-02 23:31
Хоррор Cronos: The New Dawn от авторов ремейка Silent Hill 2 получил лёгкий режим — для любителей сюжета 14-02 22:09
Попутного ветра: AWS резко сократила развёртывание СЖО для Trainium3, решив обойтись преимущественно воздушным охлаждением 8 мин.
Европа доказала, что может создать собственный серверный CPU — на архитектуре RISC-V и техпроцессе Intel 3 55 мин.
Китайская Montage Technology выпустила серверные процессоры Jintide на базе Intel Xeon 6 2 ч.
Мировой рынок оптических коммутаторов к 2029 году достигнет $2,5 млрд, но львиная доля всё равно придётся на Google 2 ч.
Оперативная память для ПК перестала дорожать, но модули для ноутбуков взлетели на 23 % за месяц 6 ч.
IT-индустрия разогнала увольнения до 30 тыс. сотрудников за январь — 2026-й рискует побить антирекорд 7 ч.
CXMT и YMTC пропали из американского «чёрного списка» по ошибке — документ уже исправляют 9 ч.
Разработчик китайских Xeon провёл IPO в Гонконге — Montage Technology привлекла почти $1 млрд 12 ч.
Новая статья: Обзор Ryzen 7 9850X3D: три процента за двадцать баксов 12 ч.
Японская Rapidus начнёт массовое производство 2-нм чипов в 2027 году 13 ч.