Сегодня 10 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Кидаю деньги в монитор, но ничего не происходит»: игроки остались в восторге от 30 минут геймплея Fable 9 мин.
Скоро стримеры окажутся не у дел — Claude Fable 5 преуспела в прохождении игр 19 мин.
Новый подход Роскомнадзора к борьбе с VPN, вероятно, привёл к сбоям российских сайтов и сервисов 20 мин.
THQ Nordic заинтриговала фанатов тизером «самого большого и эпичного» обновления в истории Titan Quest 2 2 ч.
iPhone 17 получит урезанную Siri AI в iOS 27 из-за нехватки оперативной памяти 2 ч.
Неизвестные опубликовали исходный код червя Miasma, и тот атаковал GitHub 2 ч.
Honor научила смартфоны подсовывать приложениям фальшивые данные вместо личных — Google может её завернуть 3 ч.
Безумное приключение про одержимую монахиню Indika привлекло миллион игроков 3 ч.
Юристы обеих сторон в судебном разбирательстве сослались на выдумки ИИ — наказали всех 5 ч.
Ежемесячное обновление Windows установится не на все ПК, предупредила Microsoft 5 ч.
Компактная 8K-камера Insta360 Luna Ultra с подвесом и объективом Leica Summicron дебютировала по цене $770 2 ч.
Акции Apple упали после крупных анонсов — возможно, не по её вине 4 ч.
Санкции на сертификат: Let’s Encrypt перестанет работать с недружественными США странами, лицами и организациями 6 ч.
Представлен GL.iNet Comet X — стоечный KVM с возможностью управления четырьмя серверами 6 ч.
AST SpaceMobile объявила сроки запуска гигантских интернет-спутников BlueBird 8, 9 и 10 6 ч.
Со следующего месяца Lenovo поднимет цены на ПК — второй раз с начала года 6 ч.
Представлены доступные смартфоны OnePlus Turbo 6X и 6X Pro с батареями до 8000 мА·ч 7 ч.
Выручка TSMC в мае подскочила на 30 %, подогреваемая ИИ-бумом 7 ч.
Китай готовится потратить $295 млрд на строительство ИИ-инфраструктуры по всей стране 7 ч.
Машины с одним лишь ДВС выбыли из пятёрки самых популярных в Китае легковушек по итогам мая 8 ч.