Pixio от Meta: простая пиксельная реконструкция лучше сложных моделей зрения

Исследователи из Meta AI представили модель Pixio, которая учится работать с изображениями только через восстановление пикселей. Несмотря на простую структуру и меньшее количество параметров, Pixio превосходит более сложные подходы для оценки глубины и 3D-восстановления.

Традиционно модели обучения просят восстанавливать скрытые части изображения. Модель учится понимать, что обычно бывает на картинках: формы, цвета, объекты и их расположение.

Ранее считалось, что подход с маскированным автокодировщиком (MAE) уступает методам вроде DINOv2 или DINOv3. Но исследование Meta AI показывает обратное: Pixio превосходит DINOv3 во многих практических задачах.

Pixio восстанавливает не только текстуры, но и улавливает глубинные детали сцены. Модель различает симметричные рисунки цветов и отражения, может предсказать силуэт человека в зеркальной поверхности, даже если эта часть скрыта. Такой результат появляется, потому что для точного восстановления модель должна понять, что находится на изображении и как расположены объекты.

Pixio создан на базе MAE от Meta (2021). Авторы внесли три важных изменения. Во-первых, улучшили декодер: теперь он способен качественно восстанавливать пиксели. Во-вторых, теперь скрывают не маленькие квадраты, а большие блоки, чтобы модель анализировала картинку, а не просто копировала соседние пиксели. В-третьих, ввели несколько [CLS]-токенов — специальных меток в начале входных данных, которые помогают извлекать общие признаки, такие как тип сцены и угол обзора.

Для обучения команда собрала 2 миллиарда изображений из интернета. В отличие от DINOv2 и DINOv3, Pixio не подстраивают под тестовые наборы данных. В DINOv3, например, 10% обучающих данных — это прямые копии из набора ImageNet, что облегчает прохождение связанных тестов, но может ухудшать переносимость на новые задачи.

В Pixio более трудные для восстановления изображения встречаются чаще, простые — реже. Так модель учится лучше справляться с разными ситуациями.

По тестам Pixio с 631 млн параметров часто обходит DINOv3 с 841 млн. По оценке глубины по одной фотографии Pixio точнее на 16%. В задачах 3D-восстановления Pixio тоже впереди, хотя DINOv3 обучался на восьми ракурсах каждой сцены, а Pixio — только на одном.

В робототехнике Pixio определяет нужные действия по картинке лучше, чем DINOv2: 78,4% против 75,3%.

В работе есть минусы. Как отмечают авторы, «маскирование частей изображения — искусственная задача, ведь в жизни мы видим сцены полностью». При маленькой маскировке задача слишком простая, при большой — не хватает контекста для правильного восстановления.

Авторы предлагают сделать следующий шаг — обучать модели на видео, чтобы они учились предсказывать будущие кадры. Это естественная задача, не требующая маскировки. Код модели выложен на GitHub.

Источник

*Meta — запрещенная в РФ организация.

Оцените статью
Gimal-Ai