Команда Qwen от Alibaba Cloud представила две новые нейросети для создания и подражания голосам на основе текстовых команд. Модель Qwen3-TTS-VD-Flash позволяет генерировать голоса по детальному описанию, с указанием эмоций и скорости речи.
Пользователь может задать запрос вроде: “Мужчина, средних лет, звучный баритон — очень энергичный голос ведущего рекламы, быстрая подача и преувеличенное повышение тона, с явным стремлением что-то продать.” По словам разработчика, качество генерации выше, чем у мини-TTS модуля API GPT-4o от OpenAI, который появился весной.
Вторая модель, Qwen3-TTS-VC-Flash, копирует голос по трёхсекундной записи и воспроизводит его на десяти языках. В компании отмечают, что ошибка распознавания ниже, чем у Elevenlabs или MiniMax.
ИИ способен разбирать сложные тексты, имитировать звуки животных и выделять голоса из аудиозаписей. Использовать обе модели можно через API Alibaba Cloud. Демо-версии есть на Hugging Face.





















