FAIR, исследовательское подразделение Meta, представило систему автоматического распознавания речи Omnilingual ASR, способную распознавать и транскрибировать речь более чем на 1 600 языках.
До этого большинство подобных инструментов поддерживали лишь несколько сотен языков с большим объемом аудиозаписей и транскрипций. По данным Meta, системы искусственного интеллекта почти не охватывали тысячи других языков, используемых по всему миру.
Omnilingual ASR закрывает этот пробел: для 500 из 1 600 языков ранее не существовало ИИ-решений. В компании называют это шагом к «универсальной системе транскрипции», которая поможет убрать языковые барьеры.
Точность Omnilingual ASR зависит от количества доступных обучающих данных. Meta утверждает, что система показывает уровень ошибок при распознавании менее 10 символов для 78% поддерживаемых языков. Для языков с обучающей базой более 10 часов аудио, этот показатель достигает 95%. Даже для языков с крайне малая количеством данных (менее 10 часов) 36% попадают в желаемую точность.
Компания выпустила также большой датасет Omnilingual ASR Corpus — речь и текст на 350 «недопредставленных» языках. Он доступен по лицензии Creative Commons (CC-BY) и предназначен для помощи разработчикам и исследователям, чтобы они могли создавать или улучшать локальные системы распознавания речи.
Важная особенность Omnilingual ASR — опция «Bring Your Own Language» (BYOL), реализующая обучение на примерах. Достаточно загрузить несколько пар аудио с текстом, и система быстро начнёт работать с этим языком, без полноценного переобучения и значительных вычислительных затрат.
В Meta отмечают, что, теоретически, такой подход может расширить Omnilingual ASR до поддержки более чем 5 400 языков. Хотя точность распознавания для языков с минимальной поддержкой пока уступает хорошо обученным системам, для ранее недоступных сообществ становится возможной качественная автоматическая расшифровка речи.
Omnilingual ASR распространяется с открытым исходным кодом по лицензии Apache 2.0, а датасеты — по лицензии CC-BY. Модели доступны в разных вариантах: от «легкой» с 300 млн параметров для работы на маломощных устройствах до версии с 7 млрд параметров для максимальной точности. Все реализовано на платформе fairseq2, основанной на PyTorch. Демо-версия Omnilingual ASR уже доступна.
*Meta — запрещенная в РФ организация.






















