Meta представила SAM Audio — новый ИИ-модель, выделяющую отдельные источники звука из сложных аудиосмесей по текстовым командам, временным меткам или визуальным кликам.
Система отвечает на любые из этих команд и не требует отдельных инструментов под каждую задачу. Пользователь может ввести текст типа «лай собаки» или «пение», отметить нужный объект в видео или задать временной промежуток. Эти методы можно комбинировать для точного выделения нужного звука.
Meta называет SAM Audio первой единой моделью такого типа, отмечая её применение в музыке, подкастах и кино. Систему можно использовать для удаления шумов или разнесения инструментов по отдельным дорожкам.
Модель работает на генеративном фреймворке с flow-matching diffusion transformer. Она одновременно обрабатывает звук и команды, выдавая готовую аудиодорожку и остатки. Ключевой компонент — Perception Encoder Audiovisual (PE-AV), который расширяет функцию «компьютерного зрения» предыдущей версии модели на работу со звуком. PE-AV помогает «увидеть» источник звука на видео и лучше его отделить. Обучение прошло на более чем 100 млн видео.
Размер модели — от 500 млн до 3 млрд параметров. Скорость обработки превышает реальное время, отмечают разработчики.
Meta выпустила два инструмента для оценки эффективности: SAM Audio-Bench и SAM Audio Judge. Второй не требует эталонной звуковой дорожки и оценивает качество разделения по критериям, близким к тому, как это делает человек.
Бенчмарк покрывает речь, музыку и спецэффекты, и использует настоящие аудио и видеозаписи вместо искусственных миксов, что даёт более правдоподобную оценку.
Пока SAM Audio не поддерживает команды на основе звуковых файлов. Компания говорит, что выделять очень похожие источники — например, одного певца из хора — для модели пока сложно.
Воспользоваться SAM Audio можно через Segment Anything Playground, исходный код и веса уже доступны. Также Meta сотрудничает с производителем слуховых аппаратов Starkey и инкубатором 2gether-International для изучения возможностей в сфере доступности.
Недавно Meta представила SAM 3 — ИИ нового поколения для выделения объектов на изображениях и видео по тексту, а также SAM 3D, восстанавливающую 3D-объекты по простым снимкам.
*Meta — запрещенная в РФ организация.






















