Alibaba расширила свою линейку Qwen2.5, добавив мультимодальную модель Qwen2.5-VL, способную обрабатывать текст, изображения и длинные видео. Компания заявляет, что улучшила работу с диаграммами, иконками, графиками и макетами. Модель доступна в трех вариантах: 3, 7 и 72 млрд параметров.
Qwen2.5-VL может анализировать интерфейсы и помогать пользователям в различных задачах, таких как бронирование билетов, проверка погоды и работа с программами, например, Gimp. Хотя модель не является специализированным агентом, как CUA от OpenAI, она эффективно распознает элементы интерфейса, кнопки и планирует действия.
Обходит GPT-4o и Claude 3.5 Sonnet в ряде тестов
Alibaba утверждает, что крупнейшая версия Qwen2.5-VL-72B по многим показателям сравнима или превосходит GPT-4o, Claude 3.5 Sonnet и Gemini 2.0 Flash, особенно в анализе документов и визуальной помощи. Младшие версии — 7B и 3B — также показывают лучшие результаты, чем GPT-4o-Mini и предыдущее поколение Qwen2-VL.
Планы: универсальная модель с поддержкой аудио
Разработчики планируют добавить поддержку аудио и усилить способности к решению задач и рассуждению, чтобы создать универсальную омнимодальную модель.
Модели доступны в открытом доступе на GitHub, Hugging Face и ModelScope, а также через Qwen Chat. Однако для коммерческого использования действуют ограничения. Из-за китайских регуляций, как и модели Deepseek, Qwen2.5-VL избегает обсуждения «чувствительных тем».
Недавно Alibaba также представила модель с контекстным окном в 1 миллион токенов.