Apple представила модель генерации видео STARFlow-V, которая отличается от конкурентов вроде Sora, Veo и Runway. Модель построена на принципе “Normalizing Flows”, а не на диффузионных алгоритмах, которые сейчас распространены.
Впервые компания описала подход normalizing flows летом прошлого года, работая тогда только с изображениями. Теперь Apple распространила этот метод на видео и утверждает, что STARFlow-V — первая подобная система, способная конкурировать с диффузионными моделями по качеству и скорости. При этом видео выходит в сравнительно небольшом разрешении — 640×480 точек при 16 кадрах в секунду.
Диффузионные модели обычно поэтапно убирают шум, генерируя чистое видео за несколько итераций. Normalizing flows выстраивает прямое математическое преобразование между случайным шумом и видеоданными. Это позволяет обучать систему за один проход, без мелких итераций.
Готовая модель сразу генерирует видео из случайных чисел — повторных расчетов не требуется. Apple заявляет, что так обучение проходит эффективнее и снижается количество ошибок, возникающих при пошаговой генерации.
Система без переписывания кода справляется с разными задачами. Есть поддержка text-to-video, image-to-video и video-to-video (добавление/удаление объектов на видео).
Чтобы создавать ролики длиннее обучающих, STARFlow-V использует скользящее окно: генерирует кусок, сохраняет последние кадры, потом продолжает. Но тестовые клипы длиной до 30 секунд показывают ограниченное разнообразие в развитии событий.
Генерация длинных последовательностей — настоящий вызов для ИИ: ошибки накапливаются при покадровой съемке. В STARFlow-V над этим работают две системы: одна отвечает за общую последовательность, другая улучшает отдельные кадры.
Для стабильности в процесс обучения вводится легкий шум. Это приводит к зернистости, которую убирает “causal denoiser network” — движение объектов при этом сохраняется. Скорость увеличили: пятисекундное видео теперь строится примерно в 15 раз быстрее за счет параллелизации и повторного использования данных с предыдущих кадров.
Обучение проходило на 70 миллионах пар текст-видео (Panda dataset и внутренние клипы Apple) и 400 миллионах текст-изображение. Компания использовала языковую модель для создания девяти вариантов текстовых описаний к каждому видео. Все занимало несколько недель на 96 Nvidia H100 при увеличении числа параметров с трех до семи миллиардов и усложнении роликов.
На бенчмарке VBench STARFlow-V набрала 79,7 балла. Для сравнения: Veo 3 — 85,06, HunyuanVideo — 83,24, а авто-регрессионные модели вроде NOVA и Wan 2.1 — только 75,31 и 74,96 соответственно. Apple отмечает, что у конкурентов картинка быстро теряет качество, появляются размытость и мерцание.
Несмотря на обучение на пятиминутных роликах, STARFlow-V, по словам Apple, сохраняет стабильность до 30 секунд. Конкуренты за это время начинают сильно искажаться по цвету и детализации.
В компании признают ограничения: модель пока слишком медленная для работы на обычных видеокартах, а качество не всегда растет с увеличением данных.
С физикой тоже есть проблемы. На тестах осьминог мог плавать через стекло, а под козлом появлялся камень. По заявлению Apple, модели вроде Runway Gen-4.5 тоже страдают похожими ошибками, но справляются с ними чуть лучше.
Следующая цель — сделать вычисления быстрее, подготовить облегчённые версии и собрать набор данных с упором на физические законы. Apple открывает код STARFlow-V на GitHub, веса модели скоро появятся на Hugging Face.






















