Исследование: LLM бенчмарки ненадежны для оценки ИИ

Новое международное исследование указывает на серьезные проблемы с большинством бенчмарков для больших языковых моделей (LLM). Эксперты проанализировали 445 публикаций из ведущих ИИ-конференций и пришли к выводу, что почти все существующие методы оценки имеют фундаментальные недостатки.

Авторы отмечают: «Почти во всех статьях есть слабые стороны хотя бы в одном аспекте». В исследовании участвовали 29 специализированных рецензентов, обзору подверглись работы с конференций ICML, ICLR, NeurIPS, ACL, NAACL и EMNLP за 2018–2024 годы.

Понятие валидности бенчмарка связано с тем, действительно ли тест отражает нужное умение. Многие из них определены нечетко. Хотя 78% тестов указывают, что именно они измеряют, почти половина формулирует критерии размыто. Ключевые понятия вроде «рассуждение», «согласованность» или «безопасность» не определяются, поэтому выводы нельзя считать достоверными.

У 61% бенчмарков цель — проверить сложные, составные навыки, такие как умение действовать осознанно и давать структурированный ответ. Поднавыки при этом не оцениваются по отдельности, что затрудняет понимание реальных возможностей модели.

41% бенчмарков основаны на искусственных задачах, а 29% используют только такие задачи. Лишь около 10% тестов связаны с реальным применением моделей.

В 39% случаев набор тестовых данных подбирается по принципу удобства, а в 12% это единственный способ выбора. Это значит, используются легкодоступные данные, а не те, что отображают настоящие задачи пользователей.

Распространена и переиспользование датасетов: примерно 38% берут задания из экзаменов для людей или прошлых исследований, а некоторые бенчмарки используют чужие наборы еще чаще. Такой подход искажает результаты. Например, при тесте на арифметику, задачи берутся из школьного экзамена, где подобраны простые числа, что не отражает способности моделей решать сложные задачи.

Более 80% бенчмарков измеряют результат через точное совпадение ответа, но только 16% применяют статистические тесты для сравнения моделей. Авторы подчеркивают: объективная оценка требует корректной статистики и анализа неопределенности.

Альтернативные методы практически не используются. Лишь 17% бенчмарков привлекают в качестве судей сами языковые модели, а в 13% решений участвуют люди. Многие обходятся вовсе без анализа ошибок или оценки достоверности результатов, что сильно занижает надежность выводов.

Исследователи советуют четко формулировать цель и предмет каждого бенчмарка. Нужно избегать дополнительных задач, которые не относятся к целевому навыку, и усложняют интерпретацию.

Данные должны подбираться осознанно, не только из соображений удобства. Если используются старые наборы, об этом стоит честно сообщать. Для справедливого сравнения требуется проверить, встречались ли задания в обучении модели, а тестовые данные должны быть защищены от утечек.

Строгие статистические методы и анализ неопределенности необходимы для честного сравнения. Также важен разбор ошибок, чтобы выявлять повторяющиеся слабости моделей.

В качестве примера ученые приводят GSM8K — популярный тест по математике. Он должен измерять умение решать арифметические задачи, но на деле смешаны навыки чтения и логики, которые не тестируют отдельно. Проводя проверку на совпадение данных с учебной выборкой и более тщательно анализируя ошибки, можно было бы сделать выводы более точными.

Последний пример — скандал вокруг Llama 4, когда новые модели Meta сначала показали хорошие результаты на пользовательских тестах, но провалились на задачах с длинным контекстом. Позже Meta сообщила, что использовала специальную версию модели, адаптированную под человеческих судей, на бенчмарке LMArena, из-за чего результаты были завышены.

Несмотря на свои недостатки, бенчмарки остаются основой исследований ИИ — они позволяют отслеживать прогресс моделей и сравнивать подходы. Но по мере роста требований к моделям растут и риски недостоверных тестов. Без четких стандартов и прозрачности трудно отделить настоящие успехи от искусственных достижений на бенчмарках.

Источник

*Meta — запрещенная в РФ организация.

Оцените статью
Gimal-Ai