Искусственный интеллект StoryMem решает проблему смены образов героев

Команда ByteDance и Наньянского технологического университета разработала систему StoryMem для стабилизации ИИ-видео между сценами. Метод хранит ключевые кадры из предыдущих сцен и использует их при генерации новых, чтобы персонажи и окружающая среда не менялись случайно.

Современные ИИ-модели видео, такие как Sora, Kling и Veo, хорошо работают с короткими роликами, но при соединении нескольких сцен часто возникают проблемы — персонажи и детали “плывут”, меняются внешне, а мир вокруг выглядит неравномерно.

По словам исследователей, стандартные решения были неэффективны. Генерация всех сцен сразу требует слишком много вычислительных ресурсов. Отдельная генерация и последующее объединение рушит целостность.

StoryMem использует иной подход: во время генерации отбираются и сохраняются ключевые кадры, которые затем становятся ориентирами для новых сцен. Кадры выбираются не все подряд: алгоритм ищет наиболее важные по смыслу и технически лучшие — размазанные или шумные изображения отбрасываются.

Память системы построена гибко. Первые кадры остаются как долгосрочные, новые же постоянно обновляются в «скользящем окне». Это позволяет не перегружать память, но сохранять важную информацию.

При генерации новой сцены часть кадров из памяти подается в модель вместе с текущим видео. Специальная позиционная кодировка RoPE (Rotary Position Embedding) отмечает их как предшествующие события, поэтому модель понимает их как прошлое. Хранение кадров с отрицательными временными индексами помогает ИИ воспринимать структуру истории правильно.

Система требует меньше усилий на обучение. Другие решения вынуждены работать с длинными, качественными видео, которые найти сложно. StoryMem использует модифицированную модель Wan2.2-I2V от Alibaba, обучаясь на 400 000 пятиминутных клипов, сгруппированных по визуальному сходству.

Расширение увеличило размер модели примерно на 0,7 млрд параметров к основным 14 млрд. Для оценки разработан специальный тест ST-Bench — он включает 30 историй и 300 сцен с разными стилями, от реалистичных до сказочных.

Результаты: StoryMem улучшил стабильность между сценами на 28,7% по сравнению с базовой моделью и на 9,4% по сравнению с предыдущим лучшим аналогом, HoloCine. По эстетике он стал лучшим среди всех протестированных систем.

Пользовательское исследование подтвердило успех: “StoryMem оказался предпочтительнее всех других вариантов по большинству параметров.”

StoryMem поддерживает два дополнительных сценария. Пользователь может загрузить собственные изображения для создания памяти — например, фото людей или мест, чтобы они фигурировали в истории. Также система делает переходы между сценами плавными, используя последний кадр предыдущей сцены как первый кадр следующей.

Авторы отмечают ограничения. Если в сцене много персонажей, возможно путаница визуальных черт, потому что система не привязывает изображения к конкретным героям. Для таких случаев советуют явно прописывать описание персонажей в каждом запросе. При изменении скорости движения между сценами также возможны неестественные переходы.

Проект уже представлен в открытом доступе. Весовые коэффициенты выложены на Hugging Face, тестовый набор ST-Bench скоро будет открыт для всех желающих.

Источник

Оцените статью
Gimal-Ai