Runway представила обновление Gen-4.5, теперь модель поддерживает генерацию и редактирование аудио, а также функцию multi-shot editing — изменения в одной сцене можно автоматически применить ко всему видео.
Компания также анонсировала GWM-1 — свой первый General World Model. Он строит внутреннее представление среды, позволяет имитировать будущие события в реальном времени и реагирует на такие команды, как движение камеры, команды для роботов или аудио.
GWM-1 доступен в трех версиях:
- GWM Worlds — создание исследуемых пространств;
- GWM Avatars — генерация говорящих персонажей с реалистичной мимикой и синхронизацией губ;
- GWM Robotics — генерация синтетических данных для обучения роботов.
В будущем Runway хочет объединить все эти возможности в одной модели.
Подобные разработки ведут и другие компании. Google DeepMind и стартап Яна Лекуна также работают над world models. Глава Google DeepMind Демис Хассабис заявил: «Построение этих моделей — ключ к достижению AGI».
Стартап World Labs, основанный Фэй-Фэй Ли, недавно привлек $230 млн на разработку Large World Models (LWMs) с пространственным интеллектом и представил прототип Marble, создающий 3D-сцены из мультимодальных запросов. Мюнхенский стартап Spaitial делает Spatial Foundation Models для генерации и распознавания физических 3D миров.
Растет и число конкурентов. Стартапы Etched и Decart показали систему Oasis — она в реальном времени создает 3D-миры в стиле Minecraft с частотой 20 кадров в секунду, где можно прыгать и поднимать предметы, но пока бывают ошибки с постоянством окружения: «Игроки могут попасть в разные места просто повернувшись».
В августе Tencent выпустила Hunyuan World Model 1.0 — открытый генеративный ИИ для создания трехмерных сцен по тексту или изображению.






















