Новый бенчмарк Halluhard выявил частые ошибки ИИ

Исследователи из Швейцарии и Германии представили новый бенчмарк Halluhard и показали, что даже крупные языковые модели последнего поколения продолжают часто выдавать неверные ответы. По их данным, Claude Opus 4.5 с включённым веб-поиском ошибается примерно в 30% случаев в реалистичных диалогах.

Halluhard создан специалистами из EPFL (Лозанна), ELLIS Institute Tübingen и Института интеллектуальных систем имени Макса Планка. Бенчмарк оценивает «галлюцинации» моделей в многоходовых беседах, приближенных к реальному использованию, и показывает, что проблема сохраняется, несмотря на заявления, например, главы Nvidia Дженсена Хуанга о том, что модели больше не галлюцинируют.

Набор задач включает 950 стартовых вопросов по четырём чувствительным тематикам: юридические кейсы, научные исследования, медицинские рекомендации и программирование. Для каждого вопроса другая модель пользователя генерировала два уточняющих запроса, формируя диалог из трёх ходов.

По результатам тестирования Claude Opus 4.5 с веб-поиском галлюцинировал примерно в 30% случаев. Без доступа к поиску этот показатель поднимался до 60%. GPT-5.2 Thinking с включённым поиском показал уровень галлюцинаций 38,2%.

Китайские модели рассуждений, такие как Kimi-K2-Thinking и GLM-4.7-Thinking, показали худшие результаты по сравнению с моделями того же семейства, но без акцента на рассуждения. Авторы работы отмечают, что эти открытые модели обычно демонстрируют сопоставимые с лидерами результаты в других тестах, что вызывает подозрение, что их тренировали под существующие бенчмарки, а не под устойчивую работу в реальных сценариях.

Чем больше модель, тем реже она галлюцинирует. В семействе GPT-5 средний уровень ошибок снизился с 85,1% для GPT-5-nano до 71,8% для GPT-5 и до 53,8% для GPT-5.2 Thinking. У Claude картина похожая: 79,5% у Haiku, 65,6% у Sonnet и 60% у Opus.

Режим «reasoning» (когда модель дольше «думает» над ответом) действительно уменьшает число галлюцинаций, однако усиление рассуждений не гарантирует улучшения качества. Модели с расширенным reasoning давали более длинные и детальные ответы, содержащие больше утверждений, что создавало дополнительное пространство для ошибок.

Отдельно отмечается, что DeepSeek Reasoner не показал улучшений относительно DeepSeek Chat, несмотря на заявленные расширенные способности к рассуждению. Исследователи указывают на сохраняющийся разрыв между закрытыми и открытыми моделями.

Авторы различают два типа галлюцинаций. Reference grounding проверяет, существует ли вообще указанный источник. Content grounding оценивает, подтверждает ли этот источник заявленную информацию.

Такое разделение показывает распространённый и менее заметный тип ошибки: модель может корректно сослаться на реальную публикацию, но приписать ей детали, которых там нет. В качестве примера приведён случай с бенчмарком SimpleQA, где ссылка была верной, а часть содержания — выдуманной.

Данные по тематике научных вопросов показывают, что веб-поиск в первую очередь снижает ошибки в ссылках. У Claude Opus 4.5 уровень ошибок в ссылках уменьшился с 38,6% до 7% при включённом поиске. Ошибки по сути, связанные с content grounding, сократились гораздо меньше — с 83,9% до 29,5%. У GPT-5.2 Thinking динамика похожая: ошибки в ссылках упали до 6,4%, но ошибки в содержании остались на уровне 51,6%.

Одно из ключевых наблюдений связано с многоходовыми диалогами: доля галлюцинаций растёт на поздних этапах беседы. Исследователи объясняют это тем, что модель использует весь предыдущий контекст и опирается на ранние ошибки. По их оценке, от 3 до 20% некорректных ссылок из первого хода повторяются в последующих. Ранее уже показывалось, что длинные чаты и перегруженный контекст ухудшают качество ответов.

Для задач программирования картина иная: уровень галлюцинаций, наоборот, снижался в последующих ходах. Исследователи предполагают, что так происходит потому, что запросы постепенно сужаются: от общих требований вроде «создай X» к конкретным просьбам «исправь эту функцию». Более узкие задачи оставляют меньше пространства для креативных, но неверных ответов.

В отдельном контролируемом эксперименте с 350 короткими вопросами команда проверила, когда модели предпочитают галлюцинировать, а когда отказываются отвечать. При запросах о полностью вымышленных сущностях модели чаще отказывались. Однако при вопросах о нишевом знании — малоцитируемых научных работах или произведениях из локальных галерей — галлюцинации встречались значительно чаще.

Исследователи связывают это с тем, что фрагменты нишевой информации попадают в обучающие данные нерегулярно и в малом объёме. Этого хватает, чтобы «запустить» ответ, но не для его корректности. При полностью неизвестных темах остаётся шанс, что модель прямо заявит о нехватке знаний.

По словам авторов, существующие бенчмарки плохо различают современные модели. Например, на SimpleQA GPT-4o с Search Preview набирает около 90% точности, а GPT-5 Thinking с веб-поиском — 95,1%. При оценочной погрешности теста около 3% это уже близко к потолку.

Halluhard, по замыслу создателей, должен оставаться сложным и для будущих поколений моделей. Этого планируется добиться за счёт сочетания многоходовых диалогов, чувствительных тематик и нишевого знания. Бенчмарк и код доступны на GitHub, результаты также опубликованы на специальной странице проекта.

Источник: исследование EPFL, ELLIS Institute Tübingen и Max Planck Institute for Intelligent Systems.

Оцените статью
Gimal-Ai