Исследователи из Nvidia, Стэнфордского университета, UCSD, UC Berkeley и UT Austin разработали метод генерации видео длительностью до одной минуты с помощью AI-слоёв Test-Time Training (TTT). Эти слои интегрируются в существующую модель, чтобы создавать более длинные видеоролики с сохранением временной последовательности.
Обычные модели, основанные на механизме самовнимания в архитектурах Transformer, затрудняют создание длинных видео из-за значительных вычислительных затрат. Однако, команды нашли решение, заменив простые скрытые состояния в RNN небольшими нейронными сетями. Эти TTT-слои тренируются на каждом этапе обработки, что позволяет лучше запоминать и воспроизводить последовательности.
Исследователям удалось использовать свои наработки на примере мультфильма про Тома и Джерри. Они обучили модель на предварительно обученной версии CogVideo-X с 5 миллиардами параметров, добавив TTT-слои для увеличения продолжительности видео до 63 секунд.
Хотя модель демонстрирует успехи в создании целостных историй, она все ещё сталкивается с проблемами на стыках сегментов, когда объекты могут плавать или свет меняется резко. Тем не менее, полученные видеоролики гарантированно обладают сложными сюжетными линиями без необходимости редактирования или монтажа.