AI-голоса Eleven v3 теперь умеют шептать и выражать эмоции

Elevenlabs выпустила новый ИИ-голосовой движок Eleven v3 (Alpha), который поддерживает текст в речь с большей выразительностью и умеет работать более чем с 70 языками.

Главная особенность — поддержка аудиотегов прямо в тексте (например, “[sighs]” или “[excited]”), что позволяет голосу шептать, смеяться, вздыхать или удивляться. Можно использовать сразу несколько тегов для сложной передачи эмоций, например: “Мы сделали это! [радостно][кричит][смеется]”.

В Elevenlabs отмечают, что главная проблема синтетических голосов — не качество звука, а отсутствие эмоций. Новый движок был создан с нуля, чтобы это исправить.

Система рассчитана на разработчиков и создателей медиа, чтобы расширить возможности ИИ-озвучки. Среди целей — применение в киноиндустрии, для аудиокниг и цифровых медиа. Eleven v3 позволяет вести диалоги от нескольких голосов и обеспечивает правдоподобный поток разговора. При помощи нового API на основе структурированных JSON-объектов можно задавать реплики разных участников, а ИИ сам управляет сменами голосов и эмоциональными переходами.

По заявлениям Elevenlabs, процессинг текста в версии v3 стал лучше — улучшена расстановка акцентов, темп и интонация речи соответствует смыслу фразы. Демонстрации показывают работу с разными эмоциями: от динамичных спортивных комментариев до спокойных и сдержанных монологов. Смена акцента поддерживается и задаётся прямо в тексте.

В тесте с немецким языком у системы есть некоторые слабости, но выразительность заметна. Англоязычные голоса воспринимаются естественно.

Eleven v3 уже доступен на сайте, скоро появится публичный API. До конца июня действует скидка 80% на использование через приложение. Для проектов с требованием к работе в реальном времени рекомендуются модели v2.5 Turbo или Flash, так как v3 пока не поддерживает такие задачи и не оптимизирована для них. Компания обещает, что реал-тайм версия в разработке.

Также отмечено, что Professional Voice Clones пока работают хуже с v3 — лучше использовать Instant Voice Clones или готовые шаблоны для максимальной выразительности.

Источник

Оцените статью
Gimal-Ai