Meta выпустила третью версию модели “Segment Anything” (SAM 3), которая работает не только с изображениями, но и с видео, используя открытую лексику вместо фиксированных категорий. Модель обучалась с помощью смешанной схемы с аннотированиями как от людей, так и от ИИ.
Пользователи могут выделять нужные объекты и понятия через текстовые подсказки, примеры изображений или визуальные подсказки. Meta также запустила веб-интерфейс Segment Anything Playground для тестирования.
Как отмечает Meta, “связать язык с визуальными элементами — до сих пор одна из главных задач компьютерного зрения”. Обычные модели узнают базовые объекты вроде “человек”, но не справляются с деталями вроде “полосатый красный зонт”, так как зависят от заранее заданных категорий.
SAM 3 использует “Promptable Concept Segmentation”, чтобы по коротким фразам или изображениям-наводкам выделять все подходящие объекты в фото или видео. Модель поддерживает типы визуальных подсказок из прошлых версий (маски, рамки, точки).
В тестах на новом SA-Co-бенчмарке SAM 3 показал двукратный прирост эффективности по сравнению с другими решениями. Meta утверждает, что модель обходит как узкоспециализированные инструменты GLEE и OWLv2, так и крупные мультимодальные модели, например Gemini 2.5 Pro.
Для обучения Meta разработала гибридный “data engine”: ИИ (SAM 3, Llama-описания) сначала создает сегментационные маски, далее их проверяют и корректируют люди и другие ИИ.
Как пишут авторы исследования, “ИИ-помощь ускоряет разметку примерно в 5 раз для негативных подсказок (объекта нет) и на 36% — для позитивных”. Это позволило создать датасет более чем из четырех миллионов уникальных понятий.
Meta уже внедряет SAM 3. В Facebook Marketplace модель отвечает за функцию “View in Room”, позволяя визуально размещать мебель дома. В Instagram‘s ‘Edits’ скоро появятся новые эффекты для выделения и обработки отдельных людей или объектов.
На видеокарте Nvidia H200 SAM 3 распознает на фото свыше 100 объектов за 30 миллисекунд. С видео скорость зависит от количества объектов, но пять одновременных выделений модель выполняет почти в реальном времени.
Meta сообщает и о недостатках. SAM 3 плохо работает с редкими техническими терминами вне своих данных (“zero-shot”), а также с логическими описаниями, вроде “вторая с конца книга справа на верхней полке”. Компания советует сочетать SAM 3 с мультимодальными языковыми моделями (Llama, Gemini), называя эту схему “SAM 3 Agent”.
Также представлена система SAM 3D — два модуля для создания 3D-реконструкций из обычных фото. SAM 3D Objects строит цифровые 3D-объекты и сцены: аннотаторы выбирают качественные меши из предложенных ИИ, cложные случаи направляют к экспертам. За счет этого Meta собрала около миллиона 3D-аннотированных снимков.
Вторая модель, SAM 3D Body, определяет позы и форму человека. Использует формат “Meta Momentum Human Rig” (MHR), отделяющий скелет от мышц и тканей. Обучена примерно на 8 миллионах фото и стабильно работает даже при частичном закрытии объектов.
Meta подчеркивает, что эти технологии находятся на ранней стадии. Разрешение 3D-объектов пока невысокое, сложные детали теряются. SAM 3D Objects пока не может правильно отображать взаимодействие нескольких предметов. SAM 3D Body уступает профессиональным системам трекинга кистей рук.
*Meta — запрещенная в РФ организация.






















