ByteDance разработала новую модель Goku, которая может генерировать реалистичные видео с людьми, взаимодействующими с продуктами, без участия актеров. Это может серьезно изменить процесс создания рекламного контента.
Goku обучен на 160 млн пар «изображение-текст» и 36 млн пар «видео-текст». Источниками данных стали академические базы, интернет и партнерские организации. В отличие от других видеомоделей, Goku способен генерировать как изображения, так и видео на основе текстовых описаний.
Особенности архитектуры:
- Используется трансформер с 2-8 млрд параметров, который одновременно обрабатывает изображения и видео.
- Данные сжимаются через единый кодировщик (VAE), что позволяет работать с ними в унифицированном формате.
- Вместо популярного метода диффузии применяется Rectified Flow, что улучшает качество и стабильность выходного контента.
Результаты тестов показывают, что видеомодель Goku-T2V набрала 84,85 балла на VBench, обойдя конкурентов, таких как Kling и Pika.
ByteDance опубликовала примеры роликов — они длятся по 4 секунды, 24 FPS, 720p.
Goku+ нацелен на рекламу и умеет генерировать видео с реалистичными движениями рук, мимикой и естественными жестами. Также модель может анимировать статичные изображения продуктов, создавая сцены взаимодействия. ByteDance утверждает, что это снизит затраты на видеорекламу на 99%, поскольку компании больше не придется привлекать блогеров и создателей контента для съемок аутентичных промо-роликов.
Пока Goku остается исследовательским проектом, но ByteDance, вероятно, интегрирует его в рекламные инструменты TikTok. Однако на пути могут возникнуть сложности из-за возможных санкций со стороны США.