Runway представила первую General World Model и новые функции

Runway представила обновление Gen-4.5, теперь модель поддерживает генерацию и редактирование аудио, а также функцию multi-shot editing — изменения в одной сцене можно автоматически применить ко всему видео.

Компания также анонсировала GWM-1 — свой первый General World Model. Он строит внутреннее представление среды, позволяет имитировать будущие события в реальном времени и реагирует на такие команды, как движение камеры, команды для роботов или аудио.

GWM-1 доступен в трех версиях:

  • GWM Worlds — создание исследуемых пространств;
  • GWM Avatars — генерация говорящих персонажей с реалистичной мимикой и синхронизацией губ;
  • GWM Robotics — генерация синтетических данных для обучения роботов.

В будущем Runway хочет объединить все эти возможности в одной модели.

Подобные разработки ведут и другие компании. Google DeepMind и стартап Яна Лекуна также работают над world models. Глава Google DeepMind Демис Хассабис заявил: «Построение этих моделей — ключ к достижению AGI».

Стартап World Labs, основанный Фэй-Фэй Ли, недавно привлек $230 млн на разработку Large World Models (LWMs) с пространственным интеллектом и представил прототип Marble, создающий 3D-сцены из мультимодальных запросов. Мюнхенский стартап Spaitial делает Spatial Foundation Models для генерации и распознавания физических 3D миров.

Растет и число конкурентов. Стартапы Etched и Decart показали систему Oasis — она в реальном времени создает 3D-миры в стиле Minecraft с частотой 20 кадров в секунду, где можно прыгать и поднимать предметы, но пока бывают ошибки с постоянством окружения: «Игроки могут попасть в разные места просто повернувшись».

В августе Tencent выпустила Hunyuan World Model 1.0 — открытый генеративный ИИ для создания трехмерных сцен по тексту или изображению.

Источник

Оцените статью
Gimal-Ai