Сегодня 29 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Google создала и показала в деле ИИ, который заставляет роботов сначала думать, а потом делать

Компания Google DeepMind представила две новые модели искусственного интеллекта (ИИ) для робототехники Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, которые совместно реализуют подход, при котором робот сначала «обдумывает» задачу и только потом выполняет действие. Технология основана на генеративных ИИ-системах и призвана преодолеть ограничения современных роботов, требующих длительной настройки под каждую конкретную задачу.

 Источник изображения: Google

Источник изображения: Google

Генеративные ИИ-системы, способные создавать текст, изображения, аудио и даже видео, становятся всё более распространёнными. Подобно тому, как такие модели генерируют указанные типы данных, они могут также выдавать последовательности действий для роботов. Именно на этом принципе построен проект Gemini Robotics от Google DeepMind, в рамках которого анонсированы две взаимодополняющие модели, позволяющие роботам «думать» перед тем, как действовать. Хотя традиционные большие языковые модели (LLM) имеют ряд ограничений, внедрение симулированного рассуждения значительно расширило их возможности, и теперь аналогичный прорыв может произойти в робототехнике.

Команда Google DeepMind считает, что генеративный ИИ способен кардинально изменить робототехнику, обеспечив роботам универсальную функциональность. В отличие от современных систем, которые требуют месяцев настройки под одну узкоспециализированную задачу и плохо адаптируются к новым условиям, новые ИИ-подходы позволяют роботам работать в незнакомых средах без перепрограммирования. Как отметила Каролина Парада (Carolina Parada), руководитель направления робототехники в DeepMind, роботы на сегодняшний день «чрезвычайно специализированы и сложны в развёртывании».

Для реализации концепции DeepMind разработала Gemini Robotics-ER 1.5 и Gemini Robotics 1.5. Первая — это модель «зрение–язык» (VLM) с функцией воплощённого рассуждения (embodied reasoning), которая анализирует визуальные и текстовые данные, формирует пошаговый план выполнения задачи и может подключать внешние инструменты, например, поиск Google для уточнения контекста. Вторая — модель «зрение–язык–действие» (VLA), которая преобразует полученные инструкции в физические действия робота, одновременно корректируя их на основе визуальной обратной связи и собственного процесса «обдумывания» каждого шага. По словам Канишки Рао (Kanishka Rao) из DeepMind, ключевым прорывом стало наделение робота способностью имитировать интуитивные рассуждения человека, то есть думать перед тем, как действовать.

Разработчики наглядно продемонстрировали, как работают новые модели — наделённый Gemini Robotics 1.5 человекоподобный робот Apollo на видео упаковывает вещи для поездки, а другой робот Aloha 2, точнее пара роборук — сортирует мусор.

Обе модели основаны на фундаментальной архитектуре Gemini, но дополнительно дообучены на данных, отражающих взаимодействие с физическим миром. Это позволяет роботам выполнять сложные многоэтапные задачи, приближая их к уровню автономных агентов. При этом система демонстрирует кроссплатформенную совместимость. В частности, навыки, внедрённые в одного робота, например, на двурукого Aloha 2, могут быть перенесены на другого, включая гуманоида Apollo, без дополнительной настройки под конкретную механику.

Несмотря на вероятный технологический прорыв, практическое применение технологии пока ограничено. Модель Gemini Robotics 1.5, отвечающая за управление роботами, доступна только доверенным тестировщикам. В то же время Gemini Robotics-ER 1.5 уже интегрирована в Google AI Studio, что даёт разработчикам возможность генерировать инструкции для собственных экспериментов с физически воплощёнными роботами. Однако, как считает Райан Уитвам (Ryan Whitwam) из Ars Technica, до появления бытовых роботов, способных выполнять повседневные задачи, ещё предстоит пройти значительный путь.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Браузер Brave обновил фирменный ИИ-поиск: теперь он даёт развёрнутые ответы 26 мин.
Календарь релизов — 29 сентября – 5 октября: Ghost of Yotei, Train Sim World 6 и ремейк FF Tactics 2 ч.
Слухи: Embracer взялась за амбициозный боевик по «Властелину колец», который бросит вызов Hogwarts Legacy 3 ч.
В ChatGPT появился полный родительский контроль после трагической гибели подростка из США 3 ч.
Capcom оставит Monster Hunter Wilds, Rise и World на Windows 10 без поддержки, причём очень скоро 4 ч.
Electronic Arts уйдёт с биржи благодаря сделке на $55 миллиардов — компанию выкупят три инвестора, включая Суверенный фонд Саудовской Аравии 5 ч.
Обороты компьютерных клубов в России за пять лет выросли в десятки раз 6 ч.
Devolver анонсировала Minos — игру о строительстве непроходимых лабиринтов по мотивам древнегреческого мифа о Тесее и Минотавре 8 ч.
Silent Hill f обогнала ремейк Silent Hill 2 по скорости продаж на запуске 8 ч.
Разработчики сосредоточились на ИИ-моделях мира для создания сверхразума 9 ч.
Euclyd разрабатывает ИИ-ускоритель Craftwerk с фирменной памятью UBM: 1 Тбайт и 8 Пбайт/с 4 ч.
Британский оператор BT в панике потребовал убрать все литиевые аккумуляторы из телефонных станций из-за риска возгорания 5 ч.
Геймерский 27-дюймовый QD-OLED-монитор Gigabyte Aorus FO27Q5P с 2K и 500 Гц дебютировал в России 5 ч.
Nothing представила CMF Headphone Pro — модульные полноразмерные наушники с автономностью на 100 часов за $99 6 ч.
Digital Realty получит от Current Hydro 500 ГВт∙ч энергии с американских ГЭС 6 ч.
Закрытие угольных электростанций в США забуксовало из-за спроса на энергию для ИИ ЦОД 7 ч.
Xiaomi похвалилась отличными продажами Xiaomi 17 Pro и Pro Max, но не все разделили оптимизм 8 ч.
Huawei удвоит объёмы выпуска флагманских ИИ-чипов в следующем году, но до Nvidia ещё далеко 8 ч.
315 млн ИИ-ядер и 1,4 квадрлн транзисторов: Cerebras открыла в США 10-МВт ЦОД на царь-чипах WSE-3 8 ч.
Крупнейший разработчик технологий для чипов будущего Imec сменит гендира, чтобы преуспеть в эпоху ИИ 9 ч.