Mistral представила Voxtral — open-source модель речи

Французская компания Mistral представила Voxtral — открытый ИИ-модель для понимания речи, которая стоит меньше половины от стоимости платных аналогов.

Выбор из двух вариантов: Voxtral 24B для продакшн-приложений и Voxtral 3B для работы локально и на устройствах. Обе версии поддерживают контекст до 32 000 токенов — согласно Mistral, этого достаточно для транскрипции до 30 минут аудио или понимания до 40 минут записи.

В отличие от обычных систем распознавания речи, Voxtral сразу включает функции ответов на вопросы и суммирования, не требует отдельного ИИ для текста. Система позволяет запускать команды сразу по голосу — запрос преобразуется в вызов API без промежуточных шагов.

Voxtral поддерживает автоматическое распознавание речи на английском, испанском, французском, португальском, хинди, немецком, нидерландском и итальянском языках. При этом сохраняется способность анализа текста, аналогичная модели Mistral Small 3.1.

По результатам тестов Mistral, Voxtral Small обходит лидирующую open-source модель Whisper large-v3, а также GPT-4o mini Transcribe и Gemini 2.5 Flash на всех задачах. На коротких заданиях на английском и бенчмарке Mozilla Common Voice он превосходит ElevenLabs Scribe, которого ранее называли одним из лучших.

На многоязычном тесте FLEURS Voxtral Small демонстрирует лучший результат по сравнению с Whisper на девяти языках. В задачах понимания аудио она равна по качеству моделям GPT-4o-mini и Gemini 2.5 Flash и достигает лидирующих показателей в переводе речи.

Mistral продвигает Voxtral как доступное решение: API начинается от $0,001 в минуту. Компания утверждает, что Mini Transcribe превосходит OpenAI Whisper, оставаясь менее чем вдвое дешевле, а Voxtral Small работает на уровне ElevenLabs Scribe, экономя те же деньги.

Voxtral предлагает функции для бизнеса: приватное развёртывание, кастомизация под нужды отраслей. В ближайших обновлениях появятся сегментация по голосам, отметки возраста или эмоций, а также таймкоды для каждого слова.

Обе версии доступны для скачивания на Hugging Face под лицензией Apache-2.0. Также Mistral предоставляет API. Модель станет основой режима Voice Mode в Le Chat — запуск состоится для всех пользователей в ближайшие недели.

Источник

Оцените статью
Gimal-Ai