Kling’s Video O1 — первая универсальная модель для генерации и редактирования видео

Китайская компания Kling AI представила систему «Video O1», которую сама называет первым в мире универсальным мультимодальным видеомоделем. Эта система умеет не только создавать видео, но и редактировать их в одном интерфейсе.

Video O1 объединяет в себе задачи, для которых раньше требовались отдельные инструменты. Модель умеет генерировать видео длиной от трех до десяти секунд по текстовому запросу или картинке, а также редактировать существующие ролики: менять персонажей, погоду, стиль или цветовую гамму. Все это можно сделать в одном запросе — система понимает, если одновременно нужно добавить объект, изменить фон и стиль.

Video O1 одновременно обрабатывает до семи различных элементов ввода: изображений, видео, объектов и текстовых фраз. Видео можно редактировать с помощью простых команд, например «убрать прохожих» или «сменить день на сумерки» — вручную выделять области или ставить ключевые кадры не потребуется.

Пользователи могут загружать своих героев, реквизит или локации — система применяет их в разных видео. Жесты, движения камеры и объекты тоже можно использовать как подсказки. По словам Kling, система достаточно хорошо понимает данные, чтобы персонажи или товары выглядели одинаково в кадрах из разных сцен.

Модель построена на архитектуре мультомодального трансформера, хотя детали Kling не раскрывает. Компания внедрила «Мультимодальный визуальный язык» (MVL), который связывает текстовые и мультимодальные сигналы. Модель способна выстраивать логические «цепочки» для понимания событий, чтобы результат выглядел естественно — схожие формулировки недавно использовала Google в анонсе собственной системы Nano Banana Pro.

По данным тревнутреннего тестирования, Video O1 обошла Google Veo 3.1 при создании видео по изображению и превзошла Runway Aleph при трансформации уже существующего видео (эксперты выбрали O1 в 230% случаев). Но эти цифры — из внутренних тестов Kling AI и не подтверждены внешними проверками.

Сервис уже доступен через веб-интерфейс Kling. Конкуренты активно развивают свои решения — так, почти одновременно Runway запустила свою модель Gen-4.5, а с Kling также соперничают китайские Hailuo, Seedance, Vidu, которые делают ставку на цену.

Источник

Оцените статью
Gimal-Ai