Сегодня 30 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → обучение с подкреплением

Учёные натренировали робопса играть в бадминтон — он самообучается, но пока играет на уровне любителя

Группа учёных из ETH Zürich под руководством робототехника Юньтао Ма (Yuntao Ma) представила робота, способного играть в бадминтон. Робот ANYmal внешне напоминает миниатюрного жирафа с ракеткой «в зубах», и создан на базе четвероногого промышленного робота, предназначенного для работы в нефтегазовой отрасли, от компании ANYbotics. Вес ANYmal составляет около 50 кг, длина корпуса — менее метра, а ширина — менее 50 сантиметров.

 Источник изображений: ETH Zürich

Источник изображений: ETH Zürich

На робота установлен манипулятор с несколькими степенями свободы, в который закреплена бадминтонная ракетка. Отслеживание полёта волана и мониторинг окружающей среды осуществляется с помощью стереоскопической камеры. По словам разработчиков, на создание робота ушло около пяти лет.

При разработке системы управления ANYmal были использованы современные методы обучения моделей ИИ с подкреплением. «Вместо того чтобы строить продвинутые модели, мы смоделировали робота в виртуальной среде и позволили ему научиться двигаться самостоятельно», — пояснил Ма. Обучение разбивалось на повторяющиеся блоки, в каждом из которых робот должен был предсказать траекторию полёта волана и попытаться его отбить. В ходе этого процесса ANYmal, как настоящий спортсмен, также определял пределы своих физических возможностей.

 Источник изображений: ETH Zürich

Обучение было направлено на развитие зрительно-моторной координации, аналогичной той, которой обладают спортсмены-люди. Модель восприятия, основанная на данных с камеры в реальном времени, обучала робота удерживать волан в поле зрения, несмотря на помехи и ошибки отслеживания. «Представьте, что робот занимает позицию для приёма волана, — рассказал Ма. — Если он движется медленно, шансы на успех снижаются. Если быстро — тряска камеры увеличивает погрешность отслеживания. Это компромисс, и мы хотели, чтобы он научился с ним справляться».

В результате обучения с подкреплением робот освоил принципы правильного позиционирования на площадке. Он пришёл к выводу, что после удачного удара наилучшая стратегия — возврат в центр площадки к задней линии. ANYmal научился самостоятельно вставать на задние «лапы», чтобы лучше видеть приближающийся волан, понял, как избегать падений и оценивать разумность риска с учётом своей ограниченной скорости. Он также воздерживался от попыток, заведомо обречённых на неудачу, тем самым снижая вероятность повреждений.

 Источник изображений: ETH Zürich

Результаты реальных матчей с людьми показали, что ANYmal как бадминтонист пока что не более чем любитель. Его время реакции составляло около 0,35 секунды, в то время как средний человек реагирует за 0,2–0,25 секунды, а элитные игроки с натренированными рефлексами и развитой мышечной памятью сокращают это время до 0,12–0,15 секунды. Ещё одной проблемой является ограниченное поле зрения камеры робота.

Учёные планируют продолжать развитие навыков ANYmal. В частности, они намерены сократить время реакции путём предсказания траектории волана на основе позы соперника перед ударом. Также предполагается оснастить робота более продвинутыми камерами со сверхнизкой задержкой. Модернизации потребуют и приводы манипуляторов.

Сам по себе робот, играющий в бадминтон, — скорее курьёз, чем практическое устройство. Однако опыт, полученный в процессе разработки, может быть масштабирован для самых разных задач. «Я думаю, что предлагаемая нами архитектура обучения будет полезна в любом приложении, где необходимо балансировать между восприятием и управлением — например, при подъёме предметов, а также их ловле и броске», — заключил Ма.

Китайская ИИ-модель Kimi k1.5 освоила мультимодальные рассуждения и превзошла OpenAI o1

Если 2024 год стал годом клонов ChatGPT, то 2025 год обещает стать эрой рассуждающих моделей ИИ, а лидерство в этой области захватывают китайские лаборатории. На прошлой неделе много шума наделала DeepSeek со своей рассуждающей моделью R1. А на днях Moonshot AI представила мультимодальную Kimi k1.5, которая обгоняет в тестах OpenAI o1, а стоит в разы меньше. Эти модели представляют собой смену представления о «мыслительном процессе» ИИ.

 Источник изображения: kimi.ai

Источник изображения: kimi.ai

Новые модели далеко ушли от банального пересказа Википедии. Им по силам сложные проблемы — от решения головоломок до объяснения квантовой физики. А Kimi k1.5 уже успела заработать звание «первого настоящего конкурента o1». По оценкам экспертов, Kimi k1.5 — это не просто ещё одна модель ИИ — это скачок вперёд в мультимодальном рассуждении и обучении с подкреплением. Kimi k1.5 от Moonshot AI объединяет текст, код и визуальные данные для решения сложных задач, порою в разы превосходя таких лидеров отрасли, как GPT-4o и Claude Sonnet 3.5 в ключевых тестах.

Контекстное окно Kimi k1.5 на 128 тыс. токенов позволяет модели «за один подход» обрабатывать объём информации, эквивалентный солидному роману. В математических задачах модель может планировать, отражать и корректировать свои шаги на протяжении сотен токенов, имитируя решение проблемы человеком. Вместо того, чтобы повторно генерировать полные ответы, Kimi использует фрагменты предыдущих траекторий, повышая эффективность и сокращая затраты на обучение.

 Источник изображений: medium.com

Источник изображений: medium.com

Традиционный подход, основанный на принципах обучения с подкреплением, предполагает использование сложных инструментов, таких как поиск по дереву Монте-Карло или сети ценностей. Команда Moonshot AI отказалась от них и создала упрощённый фреймворк на базе обучения с подкреплением, используя штраф за длину и баланс между исследованием и эксплуатацией. В результате разработчикам удалось создать модель, которая обучается быстрее и избегает «чрезмерного обдумывания» — распространённой ошибки, когда ИИ тратит вычислительные ресурсы на ненужные шаги.

Kimi k1.5 успела показать себя как мощный инструмент визуализации и одновременной работы с текстом. Модель умеет анализировать диаграммы, решать геометрические задачи и отлаживать код — в тесте MathVista модель показала точность 74,9 %, объединив текстовые подсказки с графическими диаграммами.

Исследователи Moonshot AI, вместо того чтобы полагаться на мощные, но медленные длинноцепочечные рассуждения (Long-CoT), использовали метод Long2Short («длинные-в-короткие»), добившись более лаконичных и быстрых ответов. Для этого применялись следующие методы:

  • Объединение моделей путём смешивания весов длинных и коротких версий CoT.
  • Выборка кратчайшего отклонения — отбор самого короткого и корректного ответа из восьми сгенерированных вариантов.
  • Оптимизация DPO — обучение модели предпочтению кратких ответов без потери смысла.

Даже при прямом сравнении Kimi K1.5 оставляет GPT-4o и Claude Sonnet 3.5 далеко позади. Разработчикам Moonshot AI удалось оптимизировать процесс обучения с подкреплением благодаря:

  • Гибридному развёртыванию — совместному использованию ресурсов GPU для обучения и вывода.
  • Частичным развёртываниям — разделению длинных траекторий на управляемые фрагменты для более эффективного обучения.
  • Песочницам кода — безопасным средам для тестирования выходных данных кода, что гарантирует их надёжность.

По мнению экспертов, Kimi K1.5 — это не просто технологический прорыв, а взгляд в будущее ИИ. Объединяя обучение с подкреплением с мультимодальным рассуждением, эта модель решает задачи быстрее, умнее и эффективнее.


window-new
Soft
Hard
Тренды 🔥
«Жидкое стекло» Apple можно будет заматировать: представлена нова бета iOS 26.1 12 мин.
Сервисы AWS упали второй раз за день — тысячи сайтов по всему миру снова недоступны 8 ч.
Fujitsu влила £280 млн в британское подразделение в преддверии выплат компенсаций жертвам багов в её ПО Horizon 8 ч.
Календарь релизов 20 – 26 октября: Ninja Gaiden 4, Painkiller, Dispatch и VTM – Bloodlines 2 8 ч.
В Windows сломалась аутентификация по смарт-картам после октябрьских обновлений — у Microsoft есть временное решение 9 ч.
Вместо Majesty 3: российские разработчики выпустили в Steam амбициозную фэнтезийную стратегию Lessaria: Fantasy Kingdom Sim 9 ч.
Слухи: Лана Дель Рей исполнит заглавную песню для «Джеймса Бонда», но не в кино, а в игре от создателей Hitman 10 ч.
Зов сердца: разработчики Dead Cells объяснили, почему вместо Dead Cells 2 выпустили Windblown 11 ч.
Adobe запустила фабрику ИИ-моделей, заточенных под конкретный бизнес 11 ч.
Китай обвинил США в кибератаках на Национальный центр службы времени — это угроза сетям связи, финансовым системам и не только 12 ч.
Президент США подписал соглашение с Австралией на поставку критически важных минералов на сумму $8,5 млрд 18 мин.
Новая статья: Обзор смартфона realme 15 Pro: светит, но не греется 5 ч.
Ещё одна альтернатива платформам NVIDIA — IBM объединила усилия с Groq 5 ч.
Учёные создали кибер-глаз, частично возвращающий зрение слепым людям 6 ч.
Samsung выпустила недорогой 27-дюймовый геймерский монитор Odyssey OLED G50SF c QD-OLED, 1440p и 180 Гц 6 ч.
Акции Apple обновили исторический максимум на новостях об отличных продажах iPhone 17 8 ч.
Представлен флагман iQOO 15 с чипом Snapdragon 8 Elite Gen 5 и батареей на 7000 мА·ч по цене меньше $600 9 ч.
Нечто из космоса врезалось в лобовое стекло самолёта Boeing 737 MAX компании United Airlines 10 ч.
Умные кольца Oura научатся выявлять признаки гипертонии, как последние Apple Watch 11 ч.
Дешёвая корейская термопаста оказалась вредна для процессоров и здоровья пользователей 11 ч.