Сегодня 05 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Дуров: Telegram ни разу не передал данные из переписок — и никогда этого не сделает 14 мин.
Bethesda подтвердила даты выхода Fallout 4: Anniversary Edition и Indiana Jones and the Great Circle на Nintendo Switch 2 21 мин.
Российский банк впервые начал выдавать кредиты под залог биткоинов 50 мин.
Осенью в Substack произошла утечка данных пользователей — обнаружили её только в феврале 2 ч.
Слухи: версия Starfield для PS5 не заставит себя долго ждать, а релиз на Switch 2 под угрозой 2 ч.
«Роботам нужно ваше тело»: сервис RentAHuman.ai позволит ИИ-агентам нанимать людей для работы в реальном мире 3 ч.
Олдскульный ролевой боевик Kromlech в духе «Готики» отправит игроков в мир на грани гибели — новый трейлер и дата выхода в раннем доступе Steam 5 ч.
Аудитория Google Gemini достигла 750 млн активных пользователей в месяц — до ChatGPT осталось совсем чуть-чуть 6 ч.
Создатель классической Prince of Persia расстроен «жестокой» отменой ремейка Prince of Persia: The Sands of Time, но надежды не теряет 6 ч.
Моддеры взялись воссоздавать отменённую Fallout 3 на движке Fallout: New Vegas — первый трейлер Fallout: The New West 6 ч.
Оперативная память и SSD подорожают почти вдвое в текущем квартале — как для ПК, так и для серверов 20 мин.
Из-за дефицита памяти у Raspberry Pi 4 появился версия со «сдвоенной» RAM, а 16-Гбайт версия Raspberry Pi 5 существенно подорожала 27 мин.
BMW признала подписку на обогрев сидений перегибом, но не откажется от разблокировки функций за доплату 40 мин.
SpaceX вопреки традициям намерена попасть в фондовые индексы сразу после IPO 2 ч.
Китайский рынок электромобилей забуксовал — продажи BYD в январе рухнули до минимума за два года 2 ч.
Флагманские Dimensity разогнали выручку MediaTek до $10 млрд — но 2026 год обещает быть сложным 2 ч.
Canon выпустила юбилейную «мыльницу» по цене «зеркалки» — PowerShot G7 X Mark III Anniversary Edition 3 ч.
Юпитер слегка «усох»: зонд «Юнона» уточнил реальные размеры самой большой планеты Солнечной системы 3 ч.
Supermicro удвоила квартальную выручку на фоне спроса на ИИ-оборудование, но прибыль выросла лишь на четверть 3 ч.
Alphacool представила жидкие термопрокладки Apex Thermal Putty X1 3 ч.