Основатель и генеральный директор компании Figure, Бретт Эдкок, представил новую модель машинного обучения для человекоподобных роботов. Новость о модели под названием Helix, появившаяся спустя две недели после объявления о прекращении сотрудничества с OpenAI, является важным этапом в развитии фирмы.
Helix — это универсальная модель Vision-Language-Action (VLA), которая использует команды на основе зрения и языка для управления роботами. Подобные модели, как например RT-2 от Google DeepMind, совмещают видео и крупные языковые модели (LLM) для обучения роботов.
Helix работает по схожему принципу, объединяя визуальные данные и языковые подсказки для управления роботом в реальном времени. Компания Figure заявляет, что модель обладает высокой способностью к обобщению, позволяя роботам поднимать множество новых предметов разнообразных форм и свойств, просто получив команду на естественном языке.
Идея состоит в том, что роботы могут выполнять команды, данные голосом, после визуальной оценки окружающей среды. При этом Helix может управлять двумя роботами одновременно, что позволяет им взаимодействовать для выполнения домашних задач.
Основной сложностью остаётся обучение и контроль сложных систем робототехники в домашних условиях, в связи с чем большинство компаний сосредоточены на промышленных клиентах. Однако теперь Figure делает акцент на развитии робототехники для дома, где требуется способность к адаптации и выполнению задач в разнообразных условиях.
Усилия по обучению роботов новым навыкам сталкиваются с множеством преград: программирование вручную требует много времени и затрат. Альтернативой является интенсивное обучение, как это делается в лабораториях. Для успешного выполнения задачи робот должен неоднократно повторять действия в прошлом.
Работа над Helix находится на начальной стадии, и компания Figure использует это событие как способ привлечения новых специалистов для развития проекта.