Alibaba опубликовала подробный технический отчет о своей открытой мультимодальной модели Qwen3-VL. Система уверенно справляется с математическими задачами по изображениям и анализирует видеозаписи длительностью до двух часов.
Модель обрабатывает огромные объемы данных, анализируя двухчасовые видео или сотни страниц документов в окне контекста на 256 000 токенов.
В тестах “needle-in-a-haystack” флагманская модель Qwen3-VL-235B-A22B с точностью 100% находит отдельные кадры в 30-минутных видео. Даже в двухчасовых роликах с миллионом токенов ее точность достигает 99,5%. В этом тесте важный “игольный” кадр добавляют случайно, а система должна его найти и проанализировать.
На опубликованных бенчмарках Qwen3-VL-235B-A22B часто превосходит Gemini 2.5 Pro, OpenAI GPT-5 и Claude Opus 4.1. Например, на MathVista модель набрала 85,8%, тогда как GPT-5 — 81,3%. На MathVision — 74,6%, обгоняя Gemini 2.5 Pro (73,3%) и GPT-5 (65,8%).
В специализированных тестах модель также показывает хорошие результаты. Она получила 96,5% на DocVQA (понимание документов) и 875 баллов на OCRBench, поддерживая 39 языков — почти в четыре раза больше по сравнению с предыдущей версией.
По словам Alibaba, система демонстрирует новые возможности в задачах работы с графическими интерфейсами. На тесте ScreenSpot Pro Qwen3-VL показал точность 61,8%, а на AndroidWorld для управления приложениями Android — 63,7% (младшая версия Qwen3-VL-32B).
Модель успешно работает с многостраничными PDF и научными диаграммами. Она набрала 56,2% на MMLongBench-Doc, 90,5% на описательных задачах CharXiv и 66,2% — на сложных вопросах по графикам.
При этом Qwen3-VL уступает GPT-5 в тесте MMMU-Pro (69,3% против 78,4%) и пока отстает от коммерческих конкурентов в вопросах по видео. Вывод — это сильный инструмент для визуальной математики и работы с документами, но в общем выводе информации пока уступает.
В отчете выделены три ключевых архитектурных улучшения. Первое — замена системы позиционирования на “interleaved MRoPE”, которая равномерно распределяет математические представления по всем измерениям, что улучшает работу с длинными видео.
Второе — технология DeepStack, дающая доступ к промежуточным результатам работы визуального энкодера, а не только к финальному.
Третье — новая система текстовых меток времени, заменяющая сложный T-RoPE. Теперь для указания времени используется простой текст вроде “<3.8 seconds>” прямо во входных данных, что упрощает обработку видеозаданий.
Alibaba обучила модели за четыре этапа на 10 000 GPU. После связывания изображений и текста система прошла полное мультимодальное обучение на примерно одном триллионе токенов с использованием данных из интернета, 3 млн PDF и более 60 млн задач по STEM.
В ходе обучения окно контекста постепенно увеличивалось с 8 000 до 262 000 токенов. Варианты Thinking получили специальную тренировку для отображения логических рассуждений шаг за шагом.
Все модели Qwen3-VL, выпущенные с сентября, доступны под лицензией Apache 2.0 с открытыми весами на Hugging Face. В линейке есть плотные версии от 2B до 32B параметров и Mixture-of-Experts: 30B-A3B и флагман 235B-A22B.
Хотя функции типа поиска по кадрам в длинных видео появились еще в Gemini 1.5 Pro Google, Qwen3-VL предлагает сопоставимые возможности в открытом виде. Предыдущая версия Qwen2.5-VL широко применяется в исследованиях, а новая модель скорее всего ускорит развитие open-source инструментов.






















