Alibaba представила новую нейросеть Wan2.5-Preview для генерации коротких видео с синхронизированным звуком.
Система работает с текстом, изображениями, видео и аудио внутри одной архитектуры, что ставит её в один ряд с Veo 3 от Google. Подробностей о работе Wan2.5-Preview мало: известно только, что использовалось обучение с подкреплением и обратной связью от людей. Alibaba назвала модель “важным шагом […] к ‘Мировой Модели'”. Технического отчёта и открытых данных об обучении нет.
Wan2.5-Preview создает 10-секундные видео в 1080p со звуковой дорожкой, в которую можно включать голоса, фоновую музыку и спецэффекты. В демонстрационном ролике в соцсети X компания собрала несколько клипов, чтобы показать качество звука. На первый взгляд, звук и видео совпадают, но если присмотреться, можно заметить, что удары барабана и музыка часто расходятся, а лица в кадре иногда меняются.
Система принимает на вход текст, изображение или аудиофайл. Например, пользователь может загрузить фото и с помощью текстовой подсказки заказать видео с подходящей музыкой. Alibaba обещает пользователям “кинематографическую эстетику” и “управление съёмкой”.
Сервис позволяет генерировать и редактировать изображения на wan.video. Инструмент создает фотореалистичные картинки, работы в стиле искусства и схемы. Редактировать изображение можно через голосовые команды, например, поменять цвета или объединить разные идеи.
Wan2.5-Preview недоступна в виде открытого кода. В отличие от предыдущей версии Wan2.2, исходники новой модели не опубликованы, и компания не комментирует планы на их выпуск.
Сервис работает по подписке от $6.50 в месяц или по оплате за каждый сгенерированный ролик. Цена одного клипа — от 13 до 25 центов в зависимости от тарифа. Для работы через API — от 5 до 15 центов за секунду, что заметно дешевле аналогичного сервиса Veo 3.
Wan2.2, предыдущая версия модели от Alibaba, была доступна по лицензии Apache 2.0 и могла создавать видео в 720p на видеокартах типа RTX 4090.






















