Meta представила V-JEPA 2 — видео-модель с 1,2 миллиардами параметров, предназначенную для связывания физического понимания с управлением роботами. Она показывает выдающиеся результаты по распознаванию движений и предсказанию действий.
Цель V-JEPA 2 — научить ИИ “интуитивной физике”, как у человека. Главный научный сотрудник Meta, Янн ЛёКун, считает подход Joint Embedding Predictive Architecture (JEPA) ключевым шагом к умному ИИ. В отличие от генеративных моделей вроде Sora от OpenAI или больших языковых систем, V-JEPA 2 не пытается предсказывать каждую деталь кадра или слова — она выделяет только предсказуемое, например “мяч упадёт” или “объект движется влево”.
В докладе Meta говорится: «World models предназначены для того, чтобы позволить ИИ агентам планировать и рассуждать о физическом мире». ЛёКун отмечает, что генеративные модели тратят ресурсы на ненужные детали, тогда как V-JEPA 2 экономит вычисления за счёт абстракций. Так, для планирования действия робота ей нужно всего 16 секунд, тогда как у Cosmos от Nvidia это занимает четыре минуты.
Модель обучается в два этапа. Сначала — более миллиона часов видео и миллион фото без разметки, включая разные ракурсы: от первого лица, сторонние действия, обучающие ролики, фильтрованный контент из YouTube. Система использует крупный энкодер, который превращает видео в абстрактные представления, закрывая части кадров и обучаясь строить догадки по концепциям, а не пикселям.
Во втором этапе — управление роботами. V-JEPA 2 учится на 62 часах открытых данных по роботам, в то время как другие системы требуют тысячи часов. После этого, на базе своей абстрактной модели, она может управлять роботами, не переобучаясь для новых условий.
На бенчмарках модель показывает сильные результаты. На Something-Something v2 точность распознавания действий достигает 77,3%. В предсказании действий на тесте Epic-Kitchens-100 результат — 39,7% (на 44% выше прежних систем): например, “порезать лук” или “поставить кастрюлю”. При комбинации с языковой моделью увеличивается качество ответов на сложные вопросы о видео.
V-JEPA 2 проверяли на реальных роботах из открытого набора DROID. Модель без дополнительного обучения управляла двумя разными манипуляторами Franka. Для задач “взять чашку” или “переложить предмет” успешность составила от 65 до 80%.
Работает это так: роботу показывают фото цели, например, чашку в нужном месте. Модель строит пошаговый план движений, делает ход, сверяет позицию и пересчитывает следующий шаг.
Meta выпустила вместе с V-JEPA 2 три новых теста для проверки физического “ощущения” ИИ. Первый — IntPhys 2 — показывает пары роликов, где один нарушает законы физики. Люди сразу видят подвох, но ИИ пока справляется слабо. Второй тест, MVPBench, предлагает пары почти одинаковых видео, требующие противоположных ответов, чтобы исключить поверхностные подсказки — на этом V-JEPA 2 лучший среди ИИ (44,5% против 39,9% у InternVL-2.5), но всё равно далеко до человека.
Третий тест — CausalVQA — проверяет, может ли модель не только описывать, что происходит, но и отвечать на вопросы “что было бы, если…”, предсказывать и советовать дальнейшие действия. Вывод ясный: современные ИИ хорошо описывают увиденное, но с трудом строят альтернативные сценарии или долгосрочные прогнозы.
У V-JEPA 2 есть и проблемы: она не умеет планировать на большие промежутки времени и чувствительна к положению камеры.
В будущем Meta намерена развить иерархические модели, способные планировать от долей секунды до часов, а также добавить другие сенсоры, такие как звук или тактильные ощущения. ЛёКун и команда сознательно избрали другой подход, отличающийся от большинства крупных компаний, хотя Meta продолжает вкладываться и в генеративные ИИ — для этого Марк Цукерберг уже собирает новую команду.
*Meta — запрещенная в РФ организация.