Исследователи Moonshot AI, создатели модели Kimi, представили новый бенчмарк WorldVQA для оценки мультимодальных языковых моделей. Он проверяет, способны ли модели действительно распознавать визуальные объекты на изображениях, а не придумывать их, и показывает, что даже лучшие модели не достигают 50 % точности.
WorldVQA содержит около 3 500 пар «изображение–вопрос» в девяти категориях: природа, архитектура, культура, искусство, бренды, спорт, известные личности и другие. В отличие от наборов MMMU и MMBench, WorldVQA строго разделяет простое распознавание объектов и логическое рассуждение. В сопроводительной статье авторы пишут, что цель — измерить, что именно модель запоминает, а не то, как она умеет делать выводы.
Вопросы требуют точных ответов. Например, если модель видит фото бишон-фризе и отвечает просто «собака», это считается ошибкой: нужно указать конкретную породу. Такой подход позволяет оценить глубину зрительного узнавания, а не умение подбирать общие категории.
Отдельно исследуется знание распространённых и редких объектов. Часто встречающиеся в интернете достопримечательности и популярные логотипы брендов хорошо представлены в обучающих данных. Редкие примеры связаны с малоизвестными объектами, видами животных и растений или культурными артефактами из разных стран, и по ним модели значительно чаще ошибаются.
Лучший результат на WorldVQA показывает Google Gemini 3 Pro — 47,4 % правильных ответов. Почти на том же уровне идёт Kimi K2.5 с 46,3 % и становится лучшей из свободно доступных моделей. Claude Opus 4.5 от Anthropic набирает 36,8 %, а GPT-5.2 от OpenAI — 28 %. При этом более старая Gemini 2.5 Pro всё ещё опережает обе эти модели.
Анализ по категориям выявляет заметные пробелы. Модели лучше справляются с брендами и спортом, где в обучающих данных много примеров. Результаты по природе и культуре значительно хуже. Здесь системы часто ограничиваются общими описаниями вроде «цветок» вместо точного вида. Исследователи отмечают, что такие ИИ уверенно работают с поп-культурой, но остаются поверхностными в теме живой природы и культурного наследия.
Важная часть работы касается самооценки моделей. Каждую систему просили указать степень уверенности в ответе по шкале от 0 до 100. Все протестированные модели показали систематическую переоценку своих возможностей. Например, Gemini 3 Pro демонстрировал уверенность 95 % и выше более чем в 85 % случаев — независимо от того, был ли ответ правильным. Лучшую калибровку показал Kimi K2.5 с ошибкой калибровки 37,9 %, но это всё равно далеко от желаемого уровня.
Этот разрыв между самооценкой и реальными результатами говорит о том, что у современных моделей нет устойчивого внутреннего механизма для понимания своих границ знаний. Проще говоря, они не осознают, чего не знают.
Чтобы убедиться, что сложные вопросы действительно отражают нехватку знаний, а не проблемы с разметкой или неоднозначностью изображений, исследователи применили крупный справочный словарь. Анализ показал закономерность: чем реже сущность встречается в данных, тем труднее её правильно распознать. Простые вопросы связаны с распространёнными объектами и людьми, а сложные — с реально редкими примерами. Сложность бенчмарка обусловлена дефицитом знаний, а не ошибками в данных.
Авторы считают WorldVQA необходимым шагом для следующего поколения ИИ-ассистентов. Пока модели не научатся уверенно и точно распознавать то, что видят, их полезность для практических задач останется ограниченной. При этом команда подчёркивает и ограничение подхода: бенчмарк измеряет фактические знания в очень изолированном контексте. Открытым остаётся вопрос, приводит ли умение корректно называть конкретные сущности к улучшению в сложных прикладных сценариях. Набор данных и скрипты для оценки доступны публично.
Работа WorldVQA вписывается в серию исследований, которые выявляют фундаментальные проблемы с надёжностью ИИ. Бенчмарк AA Omniscience от компании Artificial Analysis недавно показал, что лишь 4 из 40 протестированных моделей продемонстрировали положительный результат, при этом у лидера, Gemini 3 Pro, доля галлюцинаций достигла 88 %.
Другое исследование проверяло, умеют ли языковые модели оценивать сложность экзаменационных вопросов для людей. Выяснилось, что системы слишком «сильны», чтобы реалистично воспроизвести трудности, с которыми сталкиваются слабые ученики. Авторы назвали это «проклятием знания» и указали, что модели по-прежнему плохо понимают собственные ограничения.
Источник: публикация Moonshot AI и сопутствующие исследования, цитируемые в материале.






















