Исследователи из Beijing Academy of Artificial Intelligence выпустили OmniGen 2 — открытый инструмент для генерации изображений по тексту, их редактирования и создания изображений с учетом контекста.
В отличие от первой версии, OmniGen 2 использует две отдельные схемы декодирования: одна для текста, другая для изображений, с разными наборами параметров и специальным токенизатором изображений. Команда отмечает, что это помогает использовать возможности уже существующих мультиформатных языковых моделей без потери навыков работы с текстом.
Основой OmniGen 2 выступает мультимодальная языковая модель на базе трансформера Qwen2.5-VL-3B. Для генерации изображений реализован собственный диффузионный трансформер с примерно четырьмя миллиардами параметров. Переключение с текста на изображение происходит при встрече токена “<|img|>“.
Для обучения использовалось около 140 миллионов изображений из открытых и собственных наборов данных. Также разработаны новые техники с использованием видео: модель берет похожие кадры — например, лицо с улыбкой и без — а языковая модель формирует инструкции для редактирования.
OmniGen 2 умеет отслеживать людей и объекты на разных видеофреймах, чтобы обучаться тому, как один и тот же объект или персонаж смотрится в различных ситуациях.
В модели представлен новый подход позиционного кодирования “Omni-RoPE”, который делит информацию о позиции на три части: последовательность и тип данных для различения изображений, а также двумерные координаты каждого элемента изображения. Это нужно для правильного объединения нескольких входов и их размещения на картинке.
В отличие от других систем, OmniGen 2 использует VAE (вариационные автокодировщики) только на этапе декодирования изображений, а не внутри основной языковой модели. Такой подход ускоряет архитектуру и сохраняет уровень понимания текста.
Особенность системы — механизм рефлексии: модель может анализировать собственное изображение и дорабатывать его за несколько итераций, автоматически находя недостатки и предлагая решения.
Из-за отсутствия общепринятых тестов на контекстную генерацию изображений разработан специальный OmniContext-бенчмарк. Он включает 3 категории (персонаж, объект, сцена), 8 задач и по 50 примеров на каждую.
Оценка проводится GPT-4.1, который выставляет баллы за точность следования запросу и сохранение субъекта (от 0 до 10). OmniGen 2 получил средний балл 7,18, что выше всех других открытых моделей. GPT-4o с функцией нативной генерации изображений показал результат 8,8.
В текстово-визуальных тестах типа GenEval и DPG-Bench OmniGen 2 показывает конкурентные результаты. В задачах редактирования изображений он стал новым лидером среди open-source решений.
Есть и недостатки: лучше работают англоязычные запросы, сложны трансформации фигуры, итоговое качество сильно зависит от исходного изображения. Для неоднозначных запросов на несколько объектов системе нужны детальные инструкции по размещению.
Авторы планируют выложить модели, датасеты и пайплайны на Hugging Face.