Команда Qwen от Alibaba представила модель Qwen-Image-2.0 — компактную систему для генерации и редактирования изображений, которая выделяется почти безошибочной отрисовкой текста, включая сложную китайскую каллиграфию.
Qwen-Image-2.0 содержит 7 млрд параметров и поддерживает исходное разрешение 2K (2048×2048 пикселей). Она умеет создавать изображения по текстовому описанию и редактировать уже существующие картинки, тогда как раньше для этих задач применяли два разных решения. Предыдущая версия имела 20 млрд параметров, то есть новая модель примерно в три раза компактнее. По словам команды Qwen, уменьшение размера стало возможным после нескольких месяцев объединения ранее раздельных веток разработки.
По данным Alibaba, в слепых тестах на внутренней платформе Arena модель опередила конкурентов и в генерации по тексту, и в редактировании изображений, хотя выступала как единая система против специализированных моделей. В общем рейтинге Qwen-Image-2.0 занимает третье место, сразу после GPT-Image-1.5 от OpenAI и Nano Banana Pro от Google. В сценариях редактирования изображений модель поднимается на второе место, располагаясь между Nano Banana Pro и Seedream 4.5 от ByteDance.
Ключевая особенность Qwen-Image-2.0 — работа с текстом внутри сгенерированных картинок. Команда Qwen выделяет у модели пять сильных сторон: точность, сложность, эстетика, реализм и соответствие запросу.
Модель поддерживает запросы длиной до 1000 токенов. По оценке разработчиков, этого достаточно, чтобы за один проход создавать инфографику, слайды презентаций, постеры и даже многополосные комиксы. В одном из примеров Qwen-Image-2.0 генерирует слайд в формате презентации с временной шкалой, где корректно отрисованы все подписи и встроенные изображения, фактически создавая составную композицию «картинка в картинке».
Особое внимание команда уделяет демонстрациям каллиграфии. По сообщениям Alibaba, Qwen-Image-2.0 поддерживает несколько стилей китайского письма, включая стиль «тонкое золотое письмо» императора Хуэйцзуна династии Сун и стандартный кайтшу. В одном из примеров модель практически полностью воспроизводит текст «Предисловия к стихам, написанным в павильоне орхидей», допуская лишь несколько неверных иероглифов.
Модель также уверенно работает с текстом на разных поверхностях — стеклянных досках, одежде, обложках журналов — сохраняя корректное освещение, отражения и перспективу. В демонстрации с кинопостером показана фотореалистичная сцена и насыщенная типографика в одном изображении.
Помимо текста, Qwen-Image-2.0 демонстрирует улучшения в чисто визуальных задачах. На одном из примеров с лесным пейзажем модель различает более 23 оттенков зелёного с разной фактурой — от глянцевых листьев до бархатистого мха.
Так как генерация и редактирование работают в одной модели, улучшения в генерации напрямую повышают качество правок. Qwen-Image-2.0 может накладывать стихи на существующие фотографии, создавать из одного портретного снимка сетку из девяти поз, а также объединять людей с двух разных фотографий в один естественный групповой кадр. Поддерживается и «кросс-дименсионное» редактирование, например добавление нарисованных персонажей в реальные городские фото.
Сейчас Qwen-Image-2.0 доступна через API в облаке Alibaba Cloud в формате закрытой беты по приглашениям, а также в виде бесплатной демо-версии в Qwen Chat. Открытый доступ к весам модели пока не предоставлен.
Сообщество LocalLLaMA на Reddit уже проявило интерес к новинке. Размер в 7 млрд параметров важен для пользователей, которые хотят запускать такие модели локально на потребительском «железе». Закрытый характер весов не стал неожиданностью: в случае первой версии Qwen-Image команда выложила веса под лицензией Apache 2.0 примерно через месяц после релиза, и многие ожидают аналогичный шаг и сейчас. Научная статья с описанием архитектуры пока также не опубликована.
Qwen-Image-2.0 вписывается в более широкий тренд китайских генеративных моделей, которые всё больше концентрируются на точном отображении текста. В декабре Meituan представила LongCat-Image на 6 млрд параметров, а в январе Zhipu AI выпустила GLM-Image с 16 млрд параметров под лицензией MIT.
Источник: The Decoder.






















