Alibaba представила Qwen VLo — мультисетевой ИИ, который может анализировать, создавать и менять изображения.
По заявлениям компании, Qwen VLo выстраивает изображение по частям — слева направо и сверху вниз, постоянно улучшая результат. Такой подход дает больший контроль при генерации, особенно при работе с длинными описаниями. Alibaba не раскрывает технические детали, но судя по всему, Qwen VLo работает по авто-регрессионному принципу, похожему на GPT-4o, а не на методе диффузии.
Qwen VLo понимает сложные команды на обычном языке: можно поменять фон, добавить объект, изменить стиль картинки или объединить несколько фото в одно.
Модель поддерживает как творческое, так и техническое редактирование. Она может, например, строить сегментационные карты, определять границы объектов или создавать карты глубины с цветными слоями по запросу.
Qwen VLo работает с картинками разного размера и соотношения сторон, включая необычные форматы 4:1 и 1:3, хотя эта функция пока недоступна. Модель понимает сразу несколько языков, в том числе китайский и английский.
Сейчас Qwen VLo можно протестировать через веб-интерфейс Qwen Chat. Компания предупреждает, что система пока иногда допускает ошибки при генерации, не всегда точно повторяет исходные изображения и не всегда правильно выполняет инструкции. Alibaba обещает улучшить стабильность и надежность модели.
До этого Alibaba выпускала конкурентоспособные языковые модели с открытым кодом, например, Qwen3, включая веса модели. Эксперты считают компанию значимым участником открытых исследований по ИИ. Неясно, почему Qwen VLo не вышла с открытыми весами, и означает ли это новый подход Alibaba к публикации таких разработок.