Сегодня 05 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Языковые модели ИИ сразились друг с другом в импровизированном турнире по Street Fighter III

На хакатоне Mistral AI, прошедшем в Сан-Франциско на минувшей неделе, разработчики Стэн Жирар (Stan Girard) и Quivr Brain представили тест LLM Colosseum с открытым исходным кодом, основанный на классическом аркадном файтинге Street Fighter III. Тест предназначен для определения самой эффективной языковой модели ИИ в не совсем традиционной, но зрелищной манере.

 Источник изображений: YouTube / Matthew Berman

Источник изображений: YouTube / Matthew Berman

ИИ-энтузиаст Мэтью Берман (Matthew Berman) решил провести с помощь теста LLM Colosseum своеобразный турнир между языковыми моделями, о чём он поделился в своём видео. В нём же Берман показал один из поединков между ИИ. Кроме того, он рассказал, как можно установить этот проект с исходным кодом на домашний ПК или Mac и оценить его самостоятельно.

Это не совсем типичный тест LLM. Как правило, маленькие языковые модели имеют преимущество в задержке и скорости, что приводит к победе в большинстве виртуальных боёв. В файтингах очень важна скорость реакции игроков на ответные действия своих оппонентов. То же правило работает и в случае противостояния ИИ против ИИ.

 Источник изображений: OpenGenerativeAI team

Источник изображений: OpenGenerativeAI team

Языковая модель в реальном времени принимает решение, как ей сражаться. Поскольку LLM представляют собой текстовые модели, их обучили в игре Street Fighter III с помощью текстовых подсказок. ИИ сначала дали проанализировать контекст игры в целом, а затем подсказали, как реагировать на то или иное игровое действие в той или иной ситуации, не забыв про вариативность ходов. ИИ обучили приближаться или отдаляться от противника, а также использовать различные приёмы вроде огненного шара, мегаудара, урагана и мегаогненного шара.

 Источник изображения: OpenGenerativeAI team

Источник изображения: OpenGenerativeAI team

Продемонстрированный на видео бой между ИИ выглядит динамично. Оппоненты действуют стратегически, блокируют удары противника и используют специальные приёмы. Однако к настоящему моменту проект LLM Colosseum позволяет использовать только одного игрового персонажа, Кена.

Согласно тестам Жирара, лучшей языковой моделью в турнире Street Fighter III оказалась GPT 3.5 Turbo от OpenAI. Среди восьми участников она достигла самого высокого рейтинга ELO — 1776.

В отдельной серии тестов, организованных Банджо Обайоми (Banjo Obayomi), специалистом по продвижению продуктов AWS компании Amazon, спарринги проводились между четырнадцатью языковыми моделями в рамках 314 индивидуальных матчей. Здесь в конечном итоге победила языковая модель claude_3_haiku от Anthropic с рейтингом ELO 1613.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Аудитория Google Gemini достигла 750 млн активных пользователей в месяц — до ChatGPT осталось совсем чуть-чуть 19 мин.
Создатель классической Prince of Persia расстроен «жестокой» отменой ремейка Prince of Persia: The Sands of Time, но надежды не теряет 42 мин.
Моддеры взялись воссоздавать отменённую Fallout 3 на движке Fallout: New Vegas — первый трейлер Fallout: The New West 46 мин.
Выручка YouTube достигла рекордных $60 млрд в 2025 году — больше, чем у Netflix 2 ч.
Годовая выручка Google впервые превысила $400 млрд — забрасывание ИИ деньгами усилится 2 ч.
Ставший вирусным ИИ-агент OpenClaw накрыло волной вредоносных дополнений 3 ч.
ICE — не айс: французская Capgemini продаст подразделение CGS, обслуживающее власти США 5 ч.
Никита Буянов опроверг связь загадочной Cor3 с Escape from Tarkov и Battlestate Games, ещё больше запутав фанатов 5 ч.
Новая глава, старое название: Blizzard анонсировала перезагрузку Overwatch 2 15 ч.
Пьяные убийства, съеденные яблоки и акты милосердия: разработчики Kingdom Come: Deliverance 2 раскрыли статистику игроков за год с релиза 16 ч.
Приставка Steam Machine выйдет до конца июня, но даже Valve до сих пор не знает ни дату, ни цену 14 мин.
Omdia прогнозирует рост цен на всё более дефицитные серверные CPU 2 ч.
Ядерный взрыв для защиты Земли от астероида может быть безопаснее, чем считалось — учёные провели эксперимент 2 ч.
AMD представила FPGA серии Kintex UltraScale+ Gen 2 с поддержкой PCIe 4.0 и LPDDR5X 3 ч.
ИИ помог и навредил: Arm стала больше зарабатывать на серверах, но смартфоны испортили картину — акции рухнули на 8 % 6 ч.
TSMC наладит выпуск 3-нм чипов в Японии — власти кратно увеличат субсидирование 6 ч.
«Смешно, но нечестно»: Сэм Альтман раскритиковал кампанию Anthropic против рекламы в ChatGPT 7 ч.
SpaceX обвинила Amazon в попытке получить особые условия на рынке спутниковой связи 7 ч.
Amazon ускорит и удешевит производство фильмов с помощью искусственного интеллекта 7 ч.
Рынок смартфонов забуксовал из-за дефицита: Qualcomm разочаровала прогнозом, акции обвалились на 10 % 9 ч.