Исследователи Google DeepMind считают, что видео-модели вроде Veo 3 могут стать такими же универсальными для работы с визуальными задачами, как большие языковые модели для текста.
Они предполагают, что в будущем вместо отдельных моделей для сегментации, распознавания объектов или обработки изображений будет использоваться единая модель, способная выполнять все эти задачи. Подобно тому, как языковые модели переводят, резюмируют и анализируют текст без дообучения, такая видео-модель сможет обеспечить широкий спектр визуального ИИ.
В работе DeepMind показано, что Veo 3 уже умеет выполнять множество задач без дополнительного обучения. Среди них — обработка изображений, физическое моделирование, изменение изображений и визуальное рассуждение. Это назвали ранним признаком появления “момента GPT-3” для компьютерного зрения: когда одна видео-модель способна работать сразу с множеством задач, как GPT-3 — с текстом.
«Мы считаем, что видео-модели станут едиными, универсальными фундаментальными моделями для машинного восприятия, как LLM — для обработки языка,» — пишут исследователи DeepMind.
Veo 3 создаёт восьмисекундные видео в 720p при 24 кадрах в секунду по текстовым подсказкам и исходному изображению. Она не требует дообучения под разные визуальные задачи, в отличие от традиционных моделей.
Модель справляется как со стандартными задачами восприятия — определение границ, сегментация, повышение разрешения, — так и со сложными, например, иллюзиями типа “Далматинец” или пятнами Роршаха.
Есть понимание физических закономерностей: Veo 3 моделирует плавучесть, сопротивление воздуха, отражения, смешивание цветов, а также правильно убирает объекты из сцен наподобие игры “Дженга”.
Модель умеет изменять изображения: удалять фон, перекрашивать объекты, менять ракурс или создавать новые перспективы. В ряде случаев качество деталей и текстур превышает возможности специализированных редакторов, хотя иногда возникают лишние анимации.
Veo 3 решает визуальные задачи: проходит лабиринты, находит симметрии, сортирует числа, выводит простые правила и даже решает простые судоку, используя только изображения и текстовые подсказки. Такой подход команда называет “chain-of-frames” — визуальной версией “chain-of-thought”, применяемой в языковых моделях.
Результаты зависят от формулировки подсказки и подачи изображения. Например, зелёный фон помогает сегментации, а перефразирование запроса даёт разные итоги.
В некоторых задачах API дополняет запрос с помощью LLM, например, при решении судоку. Исследователи подозревают, что тут задачу решает именно языковая модель. Однако тесты с Gemini 2.5 Pro показали, что для задач навигации и симметрии самой LLM этого не хватает — тут важно само видео-моделирование. Команда признаёт, что Veo 3 — “чёрный ящик”, но именно в модели появляется новая форма рассуждения.
Пока Veo 3 не догнала лучшие специализированные решения, такие как модель сегментации SAMv2 от Meta. Но за шесть месяцев она опередила свою прошлую версию и вплотную приблизилась к моделям вроде Nano Banana, даже опережая их на нестандартных задачах. Команда уверена, что обучение с подкреплением и инструкция смогут ещё улучшить результат, как это уже случилось с LLM.
По мнению гендиректора DeepMind Демиса Хассабиса, эти изменения подтверждают прогноз, что видео-модели могут стать “world models” — системами, генерирующими физически правдивые симуляции для обучения другого ИИ. Пример Genie 3 от DeepMind уже создаёт такие среды для обучения агентов в реальном времени.
Однако мэтры из других компаний не согласны. Глава AI Meta Янн ЛеКун считает, что подход генеративных моделей, как в Sora, является тупиковой ветвью. Он настаивает на использовании предсказательных архитектур, которые лучше понимают физику и управляют роботами; пример — V-JEPA 2.
*Meta — запрещенная в РФ организация.






















