Новый бенчмарк WorldVQA выявил слабость ИИ

Исследователи Moonshot AI, создатели модели Kimi, представили новый бенчмарк WorldVQA для оценки мультимодальных языковых моделей. Он проверяет, способны ли модели действительно распознавать визуальные объекты на изображениях, а не придумывать их, и показывает, что даже лучшие модели не достигают 50 % точности.

WorldVQA содержит около 3 500 пар «изображение–вопрос» в девяти категориях: природа, архитектура, культура, искусство, бренды, спорт, известные личности и другие. В отличие от наборов MMMU и MMBench, WorldVQA строго разделяет простое распознавание объектов и логическое рассуждение. В сопроводительной статье авторы пишут, что цель — измерить, что именно модель запоминает, а не то, как она умеет делать выводы.

Вопросы требуют точных ответов. Например, если модель видит фото бишон-фризе и отвечает просто «собака», это считается ошибкой: нужно указать конкретную породу. Такой подход позволяет оценить глубину зрительного узнавания, а не умение подбирать общие категории.

Отдельно исследуется знание распространённых и редких объектов. Часто встречающиеся в интернете достопримечательности и популярные логотипы брендов хорошо представлены в обучающих данных. Редкие примеры связаны с малоизвестными объектами, видами животных и растений или культурными артефактами из разных стран, и по ним модели значительно чаще ошибаются.

Лучший результат на WorldVQA показывает Google Gemini 3 Pro — 47,4 % правильных ответов. Почти на том же уровне идёт Kimi K2.5 с 46,3 % и становится лучшей из свободно доступных моделей. Claude Opus 4.5 от Anthropic набирает 36,8 %, а GPT-5.2 от OpenAI — 28 %. При этом более старая Gemini 2.5 Pro всё ещё опережает обе эти модели.

Анализ по категориям выявляет заметные пробелы. Модели лучше справляются с брендами и спортом, где в обучающих данных много примеров. Результаты по природе и культуре значительно хуже. Здесь системы часто ограничиваются общими описаниями вроде «цветок» вместо точного вида. Исследователи отмечают, что такие ИИ уверенно работают с поп-культурой, но остаются поверхностными в теме живой природы и культурного наследия.

Важная часть работы касается самооценки моделей. Каждую систему просили указать степень уверенности в ответе по шкале от 0 до 100. Все протестированные модели показали систематическую переоценку своих возможностей. Например, Gemini 3 Pro демонстрировал уверенность 95 % и выше более чем в 85 % случаев — независимо от того, был ли ответ правильным. Лучшую калибровку показал Kimi K2.5 с ошибкой калибровки 37,9 %, но это всё равно далеко от желаемого уровня.

Этот разрыв между самооценкой и реальными результатами говорит о том, что у современных моделей нет устойчивого внутреннего механизма для понимания своих границ знаний. Проще говоря, они не осознают, чего не знают.

Чтобы убедиться, что сложные вопросы действительно отражают нехватку знаний, а не проблемы с разметкой или неоднозначностью изображений, исследователи применили крупный справочный словарь. Анализ показал закономерность: чем реже сущность встречается в данных, тем труднее её правильно распознать. Простые вопросы связаны с распространёнными объектами и людьми, а сложные — с реально редкими примерами. Сложность бенчмарка обусловлена дефицитом знаний, а не ошибками в данных.

Авторы считают WorldVQA необходимым шагом для следующего поколения ИИ-ассистентов. Пока модели не научатся уверенно и точно распознавать то, что видят, их полезность для практических задач останется ограниченной. При этом команда подчёркивает и ограничение подхода: бенчмарк измеряет фактические знания в очень изолированном контексте. Открытым остаётся вопрос, приводит ли умение корректно называть конкретные сущности к улучшению в сложных прикладных сценариях. Набор данных и скрипты для оценки доступны публично.

Работа WorldVQA вписывается в серию исследований, которые выявляют фундаментальные проблемы с надёжностью ИИ. Бенчмарк AA Omniscience от компании Artificial Analysis недавно показал, что лишь 4 из 40 протестированных моделей продемонстрировали положительный результат, при этом у лидера, Gemini 3 Pro, доля галлюцинаций достигла 88 %.

Другое исследование проверяло, умеют ли языковые модели оценивать сложность экзаменационных вопросов для людей. Выяснилось, что системы слишком «сильны», чтобы реалистично воспроизвести трудности, с которыми сталкиваются слабые ученики. Авторы назвали это «проклятием знания» и указали, что модели по-прежнему плохо понимают собственные ограничения.

Источник: публикация Moonshot AI и сопутствующие исследования, цитируемые в материале.

Оцените статью
Gimal-Ai