Google Deepmind представила новую модель D4RT для реконструкции динамических сцен из видео в четырех измерениях. Она работает до 300 раз быстрее, чем предыдущие решения.
Люди воспринимают пространство в трех измерениях и понимают, как предметы движутся во времени. Для искусственного интеллекта такие задачи требуют больших вычислений, отмечает Google Deepmind.
D4RT (Dynamic 4D Reconstruction and Tracking) объединяет оценку глубины, определение соответствий между кадрами и параметры камеры в одну систему. Предыдущие методы использовали отдельные модули для каждого из этих этапов и сложную оптимизацию.
В основе D4RT — Scene Representation Transformer. Один мощный энкодер обрабатывает всю последовательность видео и создает глобальное представление сцены. Легкий декодер обращается к этому представлению только за нужными точками. Такой подход позволяет отвечать на простой вопрос: где находится заданный пиксель из видео в 3D-пространстве и времени с позиции выбранной камеры? Каждый запрос независим, поэтому весь процесс можно ускорить на современном оборудовании.
В отличие от конкурентов с раздельными декодерами для разных задач, у D4RT один декодер для отслеживания точек, облаков точек, карт глубины и параметров камеры. Модель способна прогнозировать положение невидимых объектов и работает как со статичными, так и с движущимися сценами.
D4RT проходит минутное видео примерно за пять секунд на одном TPU-чипе — старым методам для этого нужно было до десяти минут. В тестах Google Deepmind, D4RT опережает аналоги по точности и скорости, например, при оценке положения камеры обрабатывает более 200 кадров в секунду — в 9 раз быстрее VGGT и в 100 раз быстрее MegaSaM.
По информации Google Deepmind, технология поможет роботам лучше ориентироваться в пространстве, а приложениям дополненной реальности — точнее размещать виртуальные объекты. Производительность D4RT делает возможным запуск даже на пользовательских устройствах.
Разработчики считают D4RT шагом к более сложным моделям окружающей среды для ИИ: “Агенты ИИ должны учиться на опыте в таких моделях, а не только применять заранее выученные знания”, — отмечается в публикации.






















