Новый метод от Nvidia и университетов позволяет генерировать длинные и сюжетные видео с помощью AI

Nvidia

Исследователи из Nvidia, Стэнфордского университета, UCSD, UC Berkeley и UT Austin разработали метод генерации видео длительностью до одной минуты с помощью AI-слоёв Test-Time Training (TTT). Эти слои интегрируются в существующую модель, чтобы создавать более длинные видеоролики с сохранением временной последовательности.

Обычные модели, основанные на механизме самовнимания в архитектурах Transformer, затрудняют создание длинных видео из-за значительных вычислительных затрат. Однако, команды нашли решение, заменив простые скрытые состояния в RNN небольшими нейронными сетями. Эти TTT-слои тренируются на каждом этапе обработки, что позволяет лучше запоминать и воспроизводить последовательности.

Исследователям удалось использовать свои наработки на примере мультфильма про Тома и Джерри. Они обучили модель на предварительно обученной версии CogVideo-X с 5 миллиардами параметров, добавив TTT-слои для увеличения продолжительности видео до 63 секунд.

Хотя модель демонстрирует успехи в создании целостных историй, она все ещё сталкивается с проблемами на стыках сегментов, когда объекты могут плавать или свет меняется резко. Тем не менее, полученные видеоролики гарантированно обладают сложными сюжетными линиями без необходимости редактирования или монтажа.

Источник

Оцените статью
Gimal-Ai