Alibaba представила новую AI-модель Qwen2.5-VL-32B, превосходящую крупных конкурентов

Qwen2.5-VL-32B

Alibaba выпустила свою новую мультимодальную AI-модель Qwen2.5-VL-32B под лицензией Apache 2.0. По данным первых тестов, эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B и Mistral Small 3.1 24B. В некоторых случаях она даже превосходит собственную модель Alibaba — Qwen2-VL-72B, а также более ранние версии OpenAI GPT-4o, хотя и уступает текущему релизу.

Модель показала высокие результаты в тестах MMMU (понимание разных типов медиа) и MathVista (математическое мышление с помощью изображений). В тесте MM-MT-Bench, измеряющем качество взаимодействия, наблюдается значительный прогресс по сравнению с предыдущей моделью. Эти улучшения также касаются задач с текстом.

Разработчик Саймон Уиллис протестировал Qwen2.5-VL-32B на Mac с 64 ГБ оперативной памяти. Его тесты показали, что модель может давать подробные и структурированные описания сложных карт, точно интерпретируя линии глубины и географические особенности.

Пользователи Apple Silicon могут выбирать среди нескольких оптимизированных версий модели, включая варианты 4-бит, 6-бит, 8-бит и bf16, что делает ее доступной на различных аппаратных конфигурациях.

Команда Qwen планирует сосредоточиться на разработке более длительных и эффективных процессов мышления для решения сложных визуальных задач. Это продолжает работу, начатую с QVQ, их первой мультимодальной модели с развитым мышлением, выпущенной в конце 2024 года.

Новая версия обещает лучше справляться с данными различных типов, включая текст, изображения и видео длительностью в час. В нескольких демонстрациях Alibaba показала, как Qwen2.5 анализирует экранное содержание и выполняет задачи, такие как бронирование билетов на рейс, проверка прогноза погоды и управление сложными интерфейсами, такими как Gimp.

В процессе обработки документов, таких как счета и формы, модель может выводить информацию в структурированных форматах, таких как JSON, для легкого повторного использования. Главное направление развития — усиление способностей модели к решению проблем и мышлению с поддержкой большего количества входных данных. В конечном итоге их целью является создание AI-модели, способной справиться с любыми задачами, включая аудио.

Модели Qwen2.5 VL доступны в открытом доступе через GitHub, Hugging Face и ModelScope, а также через Qwen Chat. Некоторые ограничения на коммерческое использование применяются. Согласно китайским регламентам, эти модели избегают обсуждения некоторых тем, считающихся чувствительными.

Источник

Оцените статью
Gimal-Ai