Alibaba закрыла открытый доступ к конкуренту GPT-4o Qwen VLo

Alibaba представила Qwen VLo — мультисетевой ИИ, который может анализировать, создавать и менять изображения.

По заявлениям компании, Qwen VLo выстраивает изображение по частям — слева направо и сверху вниз, постоянно улучшая результат. Такой подход дает больший контроль при генерации, особенно при работе с длинными описаниями. Alibaba не раскрывает технические детали, но судя по всему, Qwen VLo работает по авто-регрессионному принципу, похожему на GPT-4o, а не на методе диффузии.

Qwen VLo понимает сложные команды на обычном языке: можно поменять фон, добавить объект, изменить стиль картинки или объединить несколько фото в одно.

Модель поддерживает как творческое, так и техническое редактирование. Она может, например, строить сегментационные карты, определять границы объектов или создавать карты глубины с цветными слоями по запросу.

Qwen VLo работает с картинками разного размера и соотношения сторон, включая необычные форматы 4:1 и 1:3, хотя эта функция пока недоступна. Модель понимает сразу несколько языков, в том числе китайский и английский.

Сейчас Qwen VLo можно протестировать через веб-интерфейс Qwen Chat. Компания предупреждает, что система пока иногда допускает ошибки при генерации, не всегда точно повторяет исходные изображения и не всегда правильно выполняет инструкции. Alibaba обещает улучшить стабильность и надежность модели.

До этого Alibaba выпускала конкурентоспособные языковые модели с открытым кодом, например, Qwen3, включая веса модели. Эксперты считают компанию значимым участником открытых исследований по ИИ. Неясно, почему Qwen VLo не вышла с открытыми весами, и означает ли это новый подход Alibaba к публикации таких разработок.

Источник

Оцените статью
Gimal-Ai