Google DeepMind анонсировала Gemini Robotics — новую ИИ-модель, основанную на Gemini 2.0, которая интегрирует физические действия в свою работу. Это первый шаг к созданию универсальных роботов, способных взаимодействовать с окружающей средой.
Разработчики представили две версии модели:
- Gemini Robotics — система, которая объединяет зрение, язык и действия для управления роботами.
- Gemini Robotics-ER — расширенная версия с пространственным мышлением, позволяющая роботам лучше ориентироваться в окружающей среде.
Что умеет Gemini Robotics?
- Гибкость: может адаптироваться к новым задачам, объектам и командам, даже если не встречала их раньше. В тестах модель вдвое превзошла другие системы в способности к обобщению.
- Интерактивность: воспринимает команды в разговорном стиле, мгновенно реагирует на изменения в обстановке. Например, если предмет выпал из рук робота, система пересчитает траекторию и продолжит выполнение задачи.
- Ловкость: выполняет сложные манипуляции, такие как складывание оригами или упаковка предметов в пакеты.
Применение и партнеры
Gemini Robotics можно адаптировать для разных типов роботов. Уже тестируются варианты управления би-манипулятором ALOHA 2 и роботом Apollo от Apptronik. В проекте также участвуют Agile Robots, Agility Robotics, Boston Dynamics и другие.
Безопасность
Разработчики внедрили многоуровневую систему безопасности, включая:
- избежание столкновений, контроль силы контакта, стабильность движений;
- анализ контекста перед выполнением действий;
- систему «конституции» для запрета потенциально опасных команд.
Компания также представила ASIMOV — новый набор данных для оценки безопасности роботов в реальных сценариях.
Google DeepMind продолжает тестирование Gemini Robotics вместе с партнерами и исследователями, чтобы создать надежных и полезных роботов будущего.