Команда исследователей из NYU, MIT и Google разработала способ повышения качества изображений, создаваемых искусственным интеллектом, опираясь на подходы из современных моделей рассуждений, таких как OpenAI o1.
Их метод улучшает процесс генерации изображений, основываясь на работе диффузионных моделей, которые устраняют шум на разных этапах. В статье “Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps” авторы предлагают два ключевых компонента: верификаторы, которые проверяют качество изображения, и алгоритмы поиска, использующие оценки качества для выбора лучших изображений.
Главное преимущество подхода – улучшение результатов без необходимости повторного обучения модели. Это достигается за счет оптимизации самого процесса генерации, аналогично тому, как OpenAI o1, Google Gemini 2.0 Flash Thinking и DeepSeek R1 улучшают текстовый вывод.
Тестирование трех алгоритмов поиска
Для оценки изображений исследователи использовали несколько типов верификаторов:
- Aesthetic Score – проверяет визуальное качество;
- CLIPScore – оценивает соответствие изображения текстовому запросу;
- ImageReward – оценивает изображения по критериям, близким к человеческому восприятию.
Эти показатели объединили в общий “ансамбль верификаторов” для учета различных факторов качества.
Три алгоритма поиска:
- Random Search – генерирует множество версий и выбирает лучшую, но при большом числе попыток могут появляться слишком похожие изображения.
- Zero-Order Search – стартует с случайного изображения и систематически ищет улучшения.
- Search over Paths – наиболее сложный метод, оптимизирующий процесс на разных этапах удаления шума.
Результаты: баланс между качеством и скоростью
Все три метода значительно улучшили качество изображений. Даже небольшие модели с этой оптимизацией обошли более крупные модели без нее. Однако улучшение требует дополнительных вычислительных ресурсов: для достижения оптимального баланса между качеством и скоростью исследователи выбрали увеличение времени генерации примерно на 50 шагов.
Особенности верификаторов:
- Aesthetic Score способствует созданию более художественных изображений.
- CLIPScore больше подходит для реалистичных изображений, которые точно соответствуют запросу.
Пользователям рекомендуется выбирать тип верификатора в зависимости от желаемого результата.