Stability AI представила новую модель ИИ для генерации стереозвука — Stable Audio Open Small. Компания заявляет, что этот инструмент работает быстрее конкурентов и достаточно лёгкий, чтобы запускаться прямо на смартфонах.
Модель создана в сотрудничестве с Arm, производителем процессоров для мобильных устройств. В отличие от других ИИ-решений для создания музыки вроде Suno и Udio, новая модель не требует облачных вычислений и может работать без подключения к интернету.
Stable Audio Open Small обучалась только на композициях из Free Music Archive и Freesound. Это снижает риски, связанные с авторскими правами, которые существуют у конкурентов.
Размер модели составляет 341 миллиона параметров. Она оптимизирована для работы на CPU с архитектурой Arm. Модель предназначена для быстрой генерации коротких аудио-отрывков, например, инструментальных риффов и звуковых эффектов. По словам Stability AI, на телефоне можно создать до 11 секунд аудио менее чем за 8 секунд.
Основные ограничения: Stable Audio Open Small работает только с англоязычными текстовыми описаниями, не умеет создавать реалистичные вокалы и высококачественные песни. Также качество результата зависит от жанра, так как модель обучена в основном на западной музыке.
Условия использования — бесплатный доступ для исследователей, энтузиастов и небольших компаний с доходом менее 1 млн долларов в год. Для организаций с большим оборотом требуется платная лицензия.
Компания Stability известна моделью для генерации изображений Stable Diffusion. В последние месяцы у нее был ряд внутренних проблем, но сейчас у Stability новый CEO, в совет директоров вошёл режиссёр “Титаника” Джеймс Кэмерон, появились новые генеративные модели.