Netflix открыла исходный код фреймворка VOID, который удаляет объекты из видео и автоматически корректирует физические эффекты, связанные с их присутствием в сцене.
Полное название системы — Video Object and Interaction Deletion. Её ключевая особенность в том, что она убирает из кадра объект и одновременно исправляет последствия его взаимодействия с окружением, включая столкновения и другие изменения в сцене.
VOID построен на базе видеодиффузионной модели CogVideoX от Alibaba. Систему дообучили на синтетических данных из Google Kubric, а Adobe HUMOTO используется для выявления взаимодействий в сцене.
За анализ сцены отвечает Gemini 3 Pro от Google: модель определяет части кадра, на которые повлиял удаляемый объект. Для сегментации объектов применяется SAM2 от Meta. Дополнительный второй проход может использовать optical flow, чтобы исправить искажения формы.
Проект создали исследователи Netflix совместно с INSAIT Sofia University. Код, научная статья и демо-материалы опубликованы на GitHub, arXiv и Hugging Face.
Система распространяется по лицензии Apache 2.0, что допускает коммерческое использование.
Источник: The Decoder, GitHub, arXiv, Hugging Face.
*Организация Meta (владелец Facebook и Instagram) признана экстремистской организацией и ее деятельность запрещена на территории России.






















