Исследователи из Nvidia, UC Berkeley, Stanford и Carnegie Mellon представили CaP-X — открытый фреймворк для системной проверки того, как ИИ-модели пишут код для управления роботами. Главный вывод работы: ни одна из 12 протестированных передовых моделей не смогла с первой попытки достичь уровня стабильности программ, написанных человеком.
Авторы предлагают подход, в котором роботом управляют не специальные модели, обученные на больших массивах данных о движении, а языковые модели общего назначения, которые сами пишут управляющий код. Для этого исследователи перенесли в робототехнику несколько методов, уже показавших результат в работе с LLM: обучение с подкреплением по проверяемой награде из физических симуляций, увеличение вычислений во время выполнения за счёт параллельной генерации решений и самокоррекции, а также агентные схемы вроде автоматической отладки и накопления повторно используемых функций.
Команда протестировала Gemini-3-Pro, GPT-5.2, Claude Opus 4.5, а также открытые модели, включая Qwen3-235B и DeepSeek-V3.1. Проверка шла на семи задачах манипуляции — от простого подъёма куба до координации двумя руками.
Результат сильно зависел от того, какие строительные блоки доступны модели. Если ей дают готовые команды вроде «захвати объект X и подними его», модели нужно лишь собрать правильную последовательность действий. Но если такие функции заменяют низкоуровневыми этапами — сегментацией изображения, обработкой глубины, планированием захвата и обратной кинематикой, — доля успешных попыток резко падает.
Авторы также выяснили, что передача сырых изображений с камеры прямо в контекст модели ухудшает результат. По их оценке, причина может быть в разрыве между обработкой разных типов данных: базовые модели редко обучают одновременно рассуждать о программном коде и физическом выполнении действий роботом.
Лучше показал себя промежуточный модуль Visual Differencing Module. Отдельная визуально-языковая модель сначала описывает сцену текстом, выделяет важные для задачи свойства, а после каждого шага сообщает, что изменилось на изображении и завершена ли задача. Этот структурированный текст затем служит основой для новой итерации генерации кода. По данным авторов, такой подход стабильно превосходит и прямую подачу изображений, и обычные консольные логи.
На базе этих выводов исследователи создали CaP-Agent0 — систему без дополнительного обучения с тремя основными компонентами.
- Visual Differencing Module, который после каждого шага выдаёт текстовый отчёт о состоянии.
- Автоматически собираемая библиотека функций: система сохраняет вспомогательные функции из успешных запусков, например преобразование координат или фильтрацию позы захвата, и использует их в новых задачах.
- Параллельная генерация кода: одновременно создаются девять вариантов решения — либо одной моделью с разными настройками, либо несколькими моделями, включая Gemini-3-Pro, GPT-5.2 и Claude Opus 4.5. После этого управляющий агент объединяет варианты в итоговое решение.
Часть этих идей восходит к Voyager — агенту для Minecraft, созданному командой соавтора Джима Фана, директора по робототехнике в Nvidia и одного из руководителей лаборатории GEAR Lab, которая также занимается моделями Gr00t.
Даже при работе только с низкоуровневыми блоками CaP-Agent0 сравнялся с человеческим кодом или превзошёл его в четырёх из семи задач. Авторы также сравнили систему с обученными моделями класса Vision-Language-Action, которые управляют роботами через выученные паттерны движений на основе больших наборов демонстраций, а не через код.
В бенчмарке LIBERO-PRO, где проверяются задачи с изменённым положением объектов и перефразированными инструкциями, CaP-Agent0 показал результат, сопоставимый с VLA-моделью pi0.5 от Physical Intelligence в сценариях со смещением объектов. При перефразированных описаниях задач система, по словам авторов, оказалась заметно устойчивее, потому что интерпретирует инструкцию напрямую и не зависит от конкретного распределения обучающих данных.
Помимо CaP-Agent0, фреймворк включает CaP-RL — метод улучшения языковых моделей для управления роботами через обучение с подкреплением. Модель получает сигнал награды из физического симулятора: если сгенерированный код приводит к успешному движению робота, система получает положительную оценку.
Обученная таким способом модель Qwen2.5-Coder-7B увеличила успешность в задаче со сборкой кубов в симуляции с 4% до 44%. На реальном роботе Franka та же модель достигла 76% без дополнительной донастройки, поскольку оптимизация идёт через абстрактные программные интерфейсы, а не через изображения с камер.
Авторы предлагают гибридную схему, в которой кодовые агенты отвечают за логику задачи верхнего уровня и восстановление после ошибок, а специализированные Vision-Language-Action политики берут на себя точное моторное управление. Полный набор CaP-X, включая CaP-Gym, CaP-Bench, CaP-Agent0 и CaP-RL, открыт для исследовательского сообщества.
Источник: The Decoder, исследование CaP-X.






















