Open-Sora 2.0: Конкурентное качество видео ИИ по в 10 раз ниже стоимости обучения

HPC-AI Tech представила Open-Sora 2.0, инновационную систему для создания видео с использованием ИИ, которая достигла коммерческого качества, снизив затраты на обучение в 10 раз. Это стало возможным благодаря новым методам сжатия и занятию меньших ресурсов GPU.

Система снижает разрешение видео для уменьшения вычислительных мощностей. Обучение обошлось примерно в $200,000, что составляет только десятую часть затрат, необходимых для систем вроде Movie Gen. Использовались 224 графических процессора Nvidia H200. Качество сопоставимо с коммерческими системами Runway Gen-3 Alpha и HunyuanVideo.

Три фазы обучения включают работу с видео низкого разрешения, конвертацию изображения в видео и точную настройку для более высокого разрешения. Автоэнкодер Video DC-AE обеспечивает превосходные коэффициенты сжатия, ускоряя обучение и генерацию видео в десятки раз.

Open-Sora 2.0 генерирует видео из текстовых описаний и изображений, включая контроль интенсивности движения. Ограничения включают разрешение до 768×768 и длительность в пять секунд.

Тесты показали, что система достигла почти коммерческого уровня по ключевым метрикам. Производительность Open-Sora 2.0 теперь всего на 0.69% ниже OpenAI’s Sora.

Open-Sora доступна как открытый код на GitHub. Хотя система все еще сталкивается с артефактами и движениями противоречащими физике, её стоимостьэффективность может изменить рынок видео ИИ, где услуги Google стоят 0.50 центов за секунду видео.

Пока разрыв в эффективности между открытыми и коммерческими системами питания ИИ более значителен, чем у языковых моделей. Ведущие индустрии продолжают работать над преодолением фундаментальных технических вызовов.

Источник

Оцените статью
Gimal-Ai