Китайские исследователи создали мультимодальную модель ИИ DeepEyesV2, которая анализирует изображения, запускает код и ищет в интернете. Вместо доверия только знаниям из обучения, модель использует внешние инструменты, что позволяет ей показывать лучшие результаты по сравнению с более крупными моделями во многих задачах.
В начале команда Xiaohongshu столкнулась с проблемой: обычное обучение с подкреплением не давало стабильного использования инструментов в мультимодальных задачах. Модель пыталась писать код для анализа изображений, но результат часто был ошибочным. Со временем модель вообще перестала использовать инструменты.
Для решения этих сложностей исследователи добавили обучение в два этапа. Сначала “cold-start” учит модель связывать понимание изображений с использованием инструментов. Потом идет доработка через обучение с подкреплением.
Демonstrации строились при помощи топовых моделей, таких как Gemini 2.5 Pro, GPT-4o и Claude Sonnet 4, которые генерировали траектории работы инструментов. Оставляли только те, где ответы и код были правильными. Принцип награды был намеренно прост: результаты оценивались по точности и чистоте вывода.
DeepEyesV2 использует три типа инструментов: выполнение кода (обработка изображений, вычисления), поиск похожих изображений в сети и текстовый поиск для добавления контекста.
Для проверки исследователи создали бенчмарк RealX-Bench. Здесь были задачи на определение, насколько хорошо ИИ совмещает зрительное восприятие, поиск информации и рассуждение. Например, чтобы распознать цветок на фото, модель сначала вырезает нужный фрагмент, отправляет его в поиск похожих образов и анализирует, чтобы определить вид.
Результаты показывают заметное отставание моделей от людей. Лучший проприетарный ИИ достиг только 46% точности, люди — 70%.
Самые трудные задачи требуют объединения всех трех навыков. По данным исследования, точность Gemini падает с 46% до 27,8%, когда нужна сложная интеграция. Модели умеют справляться с отдельными задачами, но слабы в комплексных.
DeepEyesV2 достигла точности 28,3%, обогнав свою базовую версию Qwen2.5-VL-7B (22,3%), но уступает более крупным моделям на 32 и 72 млрд параметров. В задачах, требующих координации всех трех инструментов, DeepEyesV2 опережает другие открытые модели.
Анализ результатов показал существенную роль инструментов поиска — особенно текстового. Многие модели до сих пор плохо используют только визуальный поиск.
В специализированных тестах DeepEyesV2 показывает значимый прирост. На задачах по математике — 52,7% на MathVerse (+7,1% к базовой модели). В задачах с поиском — 63,7% на MMSearch против 53,8% у MMSearch-R1. В повседневном понимании изображений DeepEyesV2 (7 млрд параметров) обошла даже Qwen2.5-VL-32B, у которой в 4 раза больше параметров.
Вывод: грамотное использование инструментов компенсирует нехватку параметров. Модель становится эффективнее не за счет увеличения размеров, а за счет привлечения внешних данных.
Команда отметила, что модель хорошо понимает, когда и как применять инструменты. Для задач на восприятие часто вырезает нужную часть изображения; для диаграмм — сочетает анализ и вычисления; для знаний — делает сразу таргетированный поисковый запрос.
После обучения с подкреплением DeepEyesV2 стала реже использовать инструменты — модель научилась применять их только при необходимости. Но разница по задачам осталась, стратегия меняется в зависимости от типа.
Xiaohongshu увеличивает свое влияние на глобальном рынке ИИ. “dots.llm1” уже обогнал по эффективности решения Alibaba и Deepseek, а dots.ocr показывает схожие успехи. Первая версия DeepEyes включала рассуждения и мультимодальность, вторая развила эти возможности для более “умных” агентов. Xiaohongshu (Rednote) также управляет одноименной соцсетью и платформой e-commerce в Китае.
DeepEyesV2 доступна на Hugging Face и GitHub по лицензии Apache 2.0 и может применяться в коммерческих целях.






















