Новый шаг ElevenLabs: запуск модели Scribe для распознавания речи

ElevenLabs

Стартап ElevenLabs, который привлек $180 миллионов инвестиций и достиг оценки в $3,3 миллиарда, выпустил свою первую модель преобразования речи в текст – Scribe.

Scribe поддерживает более 99 языков, из которых более 25 отличаются высокой точностью при уровне ошибки слов менее 5%. Среди них английский (точность 97%), французский, немецкий, хинди и другие. Другие языки распределены в категории с уровнем ошибки от 5% до 50%.

По информации компании, Scribe превосходит Google Gemini 2.0 Flash и Whisper Large V3 при тестировании FLEURS и Common Voice. Она умеет определять, кто говорит, показывать временные метки для субтитров и автоматически фиксировать звуковые события, например, смех аудитории.

На данный момент Scribe работает только с уже записанными аудио форматами. В будущем ElevenLabs планирует выпустить версию с низкой задержкой для работы в реальном времени.

Цена на трансляцию аудио с помощью Scribe составляет $0.40 за час.

По словам CEO ElevenLabs, Мати Станишевски, «мы стремимся лучше понимать, что говорится в разговоре, и считаем, что можем создать более точные модели обнаружения речи».

Стоимость Scribe конкурентоспособна, однако у некоторых конкурентов цены на аудио транскрипции ниже.

Источник

Оцените статью
Gimal-Ai