Новая AI-система PhotoDoodle: редактирование изображений с лёгкими и стильными преобразованиями

Исследователи из Китая и Сингапура, совместно с ByteDance, представили PhotoDoodle, систему для редактирования изображений, способную изучить художественные стили по нескольким примерам и точно выполнять указанные инструкции.

PhotoDoodle основан на модели генерации изображений Flux.1, разработанной немецким стартапом Black Forest Labs. Она использует архитектуру трансформеров диффузии и предобученные параметры.

Вначале учёные создали OmniEditor, версию Flux.1, модифицированную для обработки изображений с помощью LoRA (Low-Rank Adaptation). Этот метод добавляет специализированные матрицы, которые могут изменяться без сильного воздействия на исходную модель, что позволяет варьировать концепции и стили.

Необходимая база данных вероятно получена через ByteDance, однако детали её происхождения не уточняются. OmniEditor обучен с использованием EditLoRA, изучающего нюансы стилей по парным изображениям, созданным в сотрудничестве с художниками.

Основная проблема, которую решает система, это гармоничное добавление элементов в изображения. Предыдущие методы не могли справиться с этой задачей из-за ограничения либо на весь стиль изображения, либо на небольшие области.

Ключевой элемент PhotoDoodle – клонирование позиционного кодирования. Система запоминает расположение пикселей в оригинальном изображении, что позволяет точно интегрировать новые элементы. Метод не требует дополнительного обучения параметров, что значительно упрощает процесс.

Для успешной работы требуется качество изображения без “шума”, чтобы избежать нежелательных изменений фона.

Система успешно прошла тесты, выполняя запросы как “Сделать кота немного белее” и “Добавить розового монстра на здание”. PhotoDoodle превзошёл другие методы по различным параметрам эффективности.

Хотя требуется большая база данных и множество этапов обучения, цель исследования – сократить это до одной пары изображений. Для дальнейших исследований учёные опубликовали набор данных с шестью различными стилями и более чем 300 парами изображений. Исходный код доступен на GitHub.

Источник

Оцените статью
Gimal-Ai