Google Deepmind разработала две новые модели AI, которые улучшают взаимодействие роботов с физическим миром. Обе системы основаны на возможностях Gemini 2.0. Первая модель, Gemini Robotics, функционирует как усовершенствованная модель Vision-Language-Action (VLA), разработанная специально для прямого управления роботами. Созданная на основе Gemini 2.0, она обрабатывает и отвечает на команды на естественном языке на нескольких языках.
Система преодолевает разрыв между цифровыми возможностями AI и взаимодействием с физическим миром. В ходе тестирования Gemini Robotics показала, что может справляться с совершенно незнакомыми ситуациями, объектами и окружением, не включенными в ее обучающие данные.
Система непрерывно контролирует окружающую среду, мгновенно корректируя ее при возникновении проблем — выскальзывает ли объект из ее рук или кто-то переставляет предметы в ее рабочем пространстве. В ходе прямого тестирования с ведущими моделями Google Deepmind сообщает, что Gemini Robotics более чем вдвое увеличила производительность в задачах обобщения. Система демонстрирует сложный контроль при выполнении сложных задач, таких как складывание оригами и упаковка закусок в пакеты Ziploc.
Хотя система освоила большую часть своих навыков на платформе двурукого робота ALOHA 2, она может управлять различными типами роботов, включая системы рук Franka, обычно используемые в академических исследовательских лабораториях.
Вторая модель, Gemini Robotics-ER, расширяет эти возможности за счет расширенного пространственного понимания. Она объединяет пространственное восприятие с навыками программирования для создания новых функций в реальном времени. Например, при столкновении с кофейной кружкой система может точно рассчитать, как схватить ручку двумя пальцами, и определить наиболее безопасный путь подхода. Google Deepmind сообщает, что Robotics-ER справляется с задачами по управлению роботом в два-три раза чаще, чем стандартная Gemini 2.0.
Для управления поведением робота Google Deepmind разработала структуру, использующую управляемые данными набора правил, написанным простым языком. Компания также выпустила набор данных ASIMOV, чтобы помочь исследователям оценить безопасность действий роботов в реальных ситуациях.
Разработка осуществляется при участии нескольких ключевых партнёров: Apptronik делится своим опытом в области создания гуманоидных роботов, а Boston Dynamics и Agility Robots выступают партнёрами по тестированию Gemini Robotics-ER.
Источник
Источник новости: habr.com