Израильская компания Lightricks выложила в открытый доступ модель LTX-2 с 19 миллиардами параметров. Она создает синхронизированный аудио-видео контент по текстовому описанию и работает быстрее конкурентов.
По техотчету система генерирует до 20 секунд видео со стереозвуком из одного текстового запроса. Это включает синхронизированную речь, фоновый звук, шумы и музыку, подобранные к каждой сцене. Полная версия LTX-2 поддерживает 4K до 50 кадров в секунду, утверждают в Lightricks.
Разработчики считают, что существующие подходы не решают задачу полностью. Во многих моделях сначала создается видео, потом добавляется звук, или наоборот. Такие раздельные схемы не учитывают взаимосвязь аудио и видео. «Синхронизация губ зависит в основном от аудио, но акустическая среда формируется визуальным контекстом. Только единая модель может качественно связать оба потока», — говорится в отчете.
LTX-2 работает на асимметричном двухпоточном трансформере с 14 миллиардами параметров на видео и 5 миллиардами на аудио, что отражает разную плотность информации. Каждый поток использует отдельный вариационный автокодировщик. Для видео применяются объемные позиционные кодировки, для аудио — одномерные временные. Двунаправленные слои cross-attention точно связывают, например, падение объекта с соответствующим звуком.
Для понимания текста применяется многоязычный энкодер Gemma3-12B. Модель использует данные со всех слоев декодера, а не только с финального, и добавляет специальные “thinking tokens” — дополнительные метки, чтобы анализировать сложные запросы перед генерацией.
По результатам тестов LTX-2 опережает конкурентов по скорости вывода. На Nvidia H100 одна итерация (121 кадр 720p) занимает 1,22 секунды, а Wan2.2-14B (только видео) — 22,3 секунды. LTX-2 работает быстрее в 18 раз, заявили разработчики.
Модель поддерживает видео до 20 секунд — больше, чем Google Veo 3 (12 секунд), OpenAI Sora 2 (16 секунд) и Character.AI Ovi (10 секунд). В пользовательских исследованиях LTX-2 «значительно превосходит» другие open source-решения и по качеству сопоставима с проприетарными моделями Veo 3 и Sora 2.
Исследователи отмечают ограничения: качество синтеза речи зависит от языка, слабо распространенные языки и диалекты обрабатываются хуже. При нескольких спикерах в сцене модель иногда путает персонажей. Длинные ролики теряют синхронизацию.
Lightricks объясняет публикацию модели критикой существующего рынка. Основатель компании Зеев Фарбман заявил в презентации: «Я просто не вижу, как можно добиться этого с закрытыми API». Он считает, что отрасль застряла между демонстрацией эффектных результатов и отсутствием нужного уровня управления для профессионалов.
Компания подчеркивает важность этики: «Искусственный интеллект может дополнять человеческое творчество и интеллект. Меня беспокоит, что кто-то другой будет владеть этим дополнением», — добавил Фарбман. Он настаивает на необходимости запускать ИИ на своем оборудовании и принимать решения в широкой творческой среде, а не отдавать их небольшой группе с собственными интересами.
Вместе с весами модели Lightricks выложила облегченную версию, несколько LoRA-адаптеров и инфраструктуру для обучения с поддержкой мульти-GPU. Модель оптимизирована под Nvidia RTX и работает на пользовательских видеокартах, включая RTX 5090, а также на серверных системах. Код и веса выложены на GitHub и Hugging Face, а демо-версия доступна на контент-платформе компании после бесплатной регистрации.






















