Odyssey представила исследовательскую демо-версию нового формата видео — полностью созданные ИИ последовательности, которые реагируют на действия пользователя в реальном времени.
В демонстрации используются интерактивные видео, где каждый кадр мгновенно меняется в зависимости от вашего ввода с клавиатуры, контроллера или смартфона. Система работает на базе автогенеративной модели, которая предсказывает следующий кадр, учитывая текущую сцену, действия пользователя и уже произошедшие события.
Odyssey называет эту технологию моделью мира — ИИ, который не просто создает картинки, а формирует полноценные динамические среды для взаимодействия. Такой подход может использоваться для обучения автономных ИИ, чтобы они учились и действовали в симулированных пространствах на собственном опыте.
В отличие от обычных видеомоделей, которые формируют весь клип заранее, система Odyssey обновляет видео кадр за кадром и постоянно реагирует на выбор пользователя. По словам компании, долгосрочная цель — добиться такого уровня правдоподобия, чтобы сгенерированные видео и действия были неотличимы от настоящих.
Demka Odyssey ещё сыровата и может работать нестабильно, но компания считает, что такой подход позволит отказаться от дорогой и долгой ручной разработки интерактивного контента: ИИ сможет создавать его «по запросу».
Для последней версии Odyssey специально ограничила модель небольшим набором сред: сперва был общий видеоматериал, затем точечная дообучка на заранее проработанных сценах. Сооснователь Оливер Кэмерон объясняет, что это обеспечивает стабильность и защищает от нелепых визуальных ошибок: «Более универсальная модель ломалась бы спустя 20–30 секунд, а текущая может выдавать последовательное видео около двух с половиной минут». Это снижает универсальность — например, пока нельзя свободно смотреть вверх или вниз, потому что стабильность важнее полной свободы действий.
Кэмерон также отмечает: «Каждый кадр полностью сгенерирован нашим дообученным диффузионным модулем». Система мгновенно реагирует на действия, формируя новый кадр каждые 40 миллисекунд и отправляя его обратно пользователю. Odyssey использует кластеры GPU H100 в США и ЕС. В идеальных условиях задержка составляет 40 миллисекунд, стоимость обработки — от одного до двух долларов за час для пользователя. В будущем цены планируют снизить.
Сейчас Odyssey разрабатывает модель с более «универсальными» возможностями, разнообразием визуальных эффектов, движениями и динамикой, а также с большей устойчивостью.
Похожую идею реализует Decart AI с проектом Oasis — игрой по типу Minecraft, которую ИИ создает на лету. Там гибрид визионных трансформеров и диффузионной модели управляет графикой, физикой и происходящим по видео-данным, реагируя на действия игроков в реальном времени.