Kling 2.6: голосовое управление в ИИ-редакторе видео

Китайская компания Kuaishou представила две новые функции для генератора видео Kling 2.6: управление голосом для озвучки и улучшенное управление движением для более точной передачи движений.

Обновленная функция управления голосом использует синхронизацию аудио и видео, которую недавно добавили в Kling 2.6. Теперь, как в Google Veo 3 или Sora 2, модель создает звуковые эффекты в соответствии с видеоконтентом: голоса, музыку и другие звуки.

По заявлению Kling AI, функция поддерживает разные типы человеческих голосов: разговорную речь, диалоги, озвучку, пение, рэп. Модель также справляется с фоновыми шумами и сложными звуковыми сценами. Подходят как текстовые описания, так и комбинации текста с изображениями.

Разработчики отмечают множество вариантов применения: демонстрации товаров, лайфстайл-влоги, новости, спортивные комментарии, документальные фильмы, интервью, короткие драматические ролики, музыкальные выступления, включая многоголосое пение.

С помощью новой функции Voice Control можно загрузить свой голос для обучения модели или добавить аудиофайл напрямую. Эту озвучку можно использовать в генерации любого видеоконтента.

Это повышает последовательность персонажей — теперь они могут разговаривать узнаваемыми и одинаковыми голосами в разных видео. Такой подход делает контент более целостным.

Технические детали обучения Kling 2.6 компания не раскрыла. Пользовательская инструкция доступна на сайте.

Вторая крупная новинка — обновлённое управление движением. По словам разработчиков, система теперь точнее распознает движения всего тела, включая сложные и быстрые, например боевые искусства или танцы.

Важные улучшения касаются двух типичных проблем AI-видео: движения рук стали четче и без размытия, а мимика и синхронизация губ с речью остались естественными.

Пользователи могут загружать референсы движений длиной от 3 до 30 секунд для создания непрерывных сцен. Детали сцены можно менять с помощью текстовых подсказок.

Уже появились впечатляющие примеры в соцсетях. Это говорит о росте объёма AI-контента, так как алгоритмы платформ поощряют кликабельные видео, а авторам становится проще создавать новый необычный контент.

Kling доступен на сторонних платформах Fal.ai, Artlist и Media.io, а также на собственном ресурсе компании. Стоимость API составляет от $0,07 до $0,14 за секунду видео. Цена зависит от скорости, длины и разрешения ролика. У KlingAI действует система кредитов.

В декабре Kuaishou выпустила Video O1, который позиционируется как “первый в мире универсальный мультимодальный видеомодель” — она объединяет создание и редактирование видео в одной системе. Video O1 может менять готовые ролики по текстовому описанию: например, заменять главных героев, атмосферу, стилистику.

С новыми возможностями Kling 2.6 Kuaishou конкурирует с западными компанией Google, OpenAI, Runway и с рядом китайских — Hailuo, Seedance, Vidu.

Kuaishou владеет площадкой Kwai — одной из крупнейших в мире для коротких видео. Это обеспечивает доступ к огромному количеству пар видео-аудио и движений для обучения моделей Kling.

Источник

Оцените статью
Gimal-Ai