Исследователи из Brown University и Deepmind показали, что генеративные видеомодели умеют создавать реалистичное движение, если добавить в запрос искусственные силы — без 3D-моделей и симуляторов физики.
Force prompting позволяет управлять движением, указывая направление и силу воздействий. Модель различает глобальные силы (например, ветер по всей сцене) и локальные силы (например, удар в одну точку). Вводится информация в виде векторных полей; система превращает их в естественное движение. Доступны интерактивные демо для обеих режимов на странице проекта.
Для разработки использовали модель генерации видео CogVideoX-5B-I2V, добавив модуль ControlNet для обработки физических данных. Сигналы поступают в архитектуру Transformer. Система генерирует 49 кадров за раз, обучение заняло один день на четырех видеокартах Nvidia A100.
Все обучающие данные были синтетическими. Для глобальных сил создано 15 000 видеороликов с флагами при разном ветре; для локальных — 12 000 роликов с катящимися шарами и 11 000 с цветами, реагирующими на удары. В текстовых описаниях использовались физические термины (“ветер”, “пузыри”). Это помогло модели понять правильные связи между силами и объектами.
Каждый обучающий пример содержит текстовый запрос, стартовое изображение и физическую силу — как полное векторное поле (для глобальных) или сигнал с направлением, точкой и силой (для локальных). Изначально силы моделировались в 3D, потом переводились в 2D. Для разнообразия разработчики случайно меняли фоны, освещение, углы камеры и направления ветра или ударов.
Даже при малом наборе данных модель хорошо обобщает на новые объекты и материалы. Она воспроизводит простые физические закономерности: легкие предметы при одинаковой силе летят дальше, чем тяжелые.
В прямых сравнениях пользователи предпочли управление через силы (force prompting) обычному тексту или заранее заданной траектории. Даже модель с физическим симулятором PhysDreamer проиграла force prompting в точности движения и реалистичности анимации (PhysDreamer оказался лучше только по качеству изображения).
Анализы показали, что разнообразие обучающего сета критично: без разных фонов и предметов модель хуже определяет точку приложения силы и движения отдельных объектов. Также важно включать в запросы физические термины — без них результат заметно хуже.
Модель воспринимает предметы как единое целое: воздействие в любой точке двигает весь объект. Сохраняются визуальные свойства оригинала — освещение, глубина резкости.
Тем не менее, force prompting не заменяет точную физическую симуляцию. В сложных случаях возможны ошибки: дым иногда не реагирует на ветер, руки людей двигаются неестественно. Исследователи отмечают, что при этом подход удобен для быстрой генерации видео с физически правдоподобными эффектами.
Глава Deepmind Демис Хассабис отметил: новые видеомодели вроде Veo 3 начинают улавливать физические закономерности. По его словам, такие ИИ уже идут дальше обработки текста и изображений, начинают представлять физическую структуру мира. Это, как считает Хассабис, важный шаг к общему ИИ, который учится не только по данным, но и через симуляции опыта.