Meta SAM 3: новая модель сегментации объединяет язык и зрение

Meta выпустила третью версию модели “Segment Anything” (SAM 3), которая работает не только с изображениями, но и с видео, используя открытую лексику вместо фиксированных категорий. Модель обучалась с помощью смешанной схемы с аннотированиями как от людей, так и от ИИ.

Пользователи могут выделять нужные объекты и понятия через текстовые подсказки, примеры изображений или визуальные подсказки. Meta также запустила веб-интерфейс Segment Anything Playground для тестирования.

Как отмечает Meta, “связать язык с визуальными элементами — до сих пор одна из главных задач компьютерного зрения”. Обычные модели узнают базовые объекты вроде “человек”, но не справляются с деталями вроде “полосатый красный зонт”, так как зависят от заранее заданных категорий.

SAM 3 использует “Promptable Concept Segmentation”, чтобы по коротким фразам или изображениям-наводкам выделять все подходящие объекты в фото или видео. Модель поддерживает типы визуальных подсказок из прошлых версий (маски, рамки, точки).

В тестах на новом SA-Co-бенчмарке SAM 3 показал двукратный прирост эффективности по сравнению с другими решениями. Meta утверждает, что модель обходит как узкоспециализированные инструменты GLEE и OWLv2, так и крупные мультимодальные модели, например Gemini 2.5 Pro.

Для обучения Meta разработала гибридный “data engine”: ИИ (SAM 3, Llama-описания) сначала создает сегментационные маски, далее их проверяют и корректируют люди и другие ИИ.

Как пишут авторы исследования, “ИИ-помощь ускоряет разметку примерно в 5 раз для негативных подсказок (объекта нет) и на 36% — для позитивных”. Это позволило создать датасет более чем из четырех миллионов уникальных понятий.

Meta уже внедряет SAM 3. В Facebook Marketplace модель отвечает за функцию “View in Room”, позволяя визуально размещать мебель дома. В Instagram‘s ‘Edits’ скоро появятся новые эффекты для выделения и обработки отдельных людей или объектов.

На видеокарте Nvidia H200 SAM 3 распознает на фото свыше 100 объектов за 30 миллисекунд. С видео скорость зависит от количества объектов, но пять одновременных выделений модель выполняет почти в реальном времени.

Meta сообщает и о недостатках. SAM 3 плохо работает с редкими техническими терминами вне своих данных (“zero-shot”), а также с логическими описаниями, вроде “вторая с конца книга справа на верхней полке”. Компания советует сочетать SAM 3 с мультимодальными языковыми моделями (Llama, Gemini), называя эту схему “SAM 3 Agent”.

Также представлена система SAM 3D — два модуля для создания 3D-реконструкций из обычных фото. SAM 3D Objects строит цифровые 3D-объекты и сцены: аннотаторы выбирают качественные меши из предложенных ИИ, cложные случаи направляют к экспертам. За счет этого Meta собрала около миллиона 3D-аннотированных снимков.

Вторая модель, SAM 3D Body, определяет позы и форму человека. Использует формат “Meta Momentum Human Rig” (MHR), отделяющий скелет от мышц и тканей. Обучена примерно на 8 миллионах фото и стабильно работает даже при частичном закрытии объектов.

Meta подчеркивает, что эти технологии находятся на ранней стадии. Разрешение 3D-объектов пока невысокое, сложные детали теряются. SAM 3D Objects пока не может правильно отображать взаимодействие нескольких предметов. SAM 3D Body уступает профессиональным системам трекинга кистей рук.

Источник

*Meta — запрещенная в РФ организация.

Оцените статью
Gimal-Ai