Стартап ElevenLabs, который привлек $180 миллионов инвестиций и достиг оценки в $3,3 миллиарда, выпустил свою первую модель преобразования речи в текст – Scribe.
Scribe поддерживает более 99 языков, из которых более 25 отличаются высокой точностью при уровне ошибки слов менее 5%. Среди них английский (точность 97%), французский, немецкий, хинди и другие. Другие языки распределены в категории с уровнем ошибки от 5% до 50%.
По информации компании, Scribe превосходит Google Gemini 2.0 Flash и Whisper Large V3 при тестировании FLEURS и Common Voice. Она умеет определять, кто говорит, показывать временные метки для субтитров и автоматически фиксировать звуковые события, например, смех аудитории.
На данный момент Scribe работает только с уже записанными аудио форматами. В будущем ElevenLabs планирует выпустить версию с низкой задержкой для работы в реальном времени.
Цена на трансляцию аудио с помощью Scribe составляет $0.40 за час.
По словам CEO ElevenLabs, Мати Станишевски, «мы стремимся лучше понимать, что говорится в разговоре, и считаем, что можем создать более точные модели обнаружения речи».
Стоимость Scribe конкурентоспособна, однако у некоторых конкурентов цены на аудио транскрипции ниже.