Исследование: индустрия ИИ продолжает использовать устаревшие бенчмарки

Исследование Epoch AI показало, что результаты тестов производительности ИИ сильно зависят от того, как именно проводится испытание. Во многих случаях важные детали редко раскрываются, но именно они заметно влияют на итоговые оценки.

Специалисты делят источники ошибок на две части: настройка самого теста и способы обращения к модели. По данным Epoch AI, оба направления часто допускают неоднозначности, которые искажают финальные цифры.

На примере публичного теста GPQA-Diamond исследование выявило: разные библиотеки используют разные параметры — например, температуру генерации. В одной библиотеке EleutherAI она равна 0.0, в OpenAI simple-evals — 0.5, а gpt-oss по умолчанию ставит 1.0. Разница в настройках меняет итог оценки одной и той же модели с 74 до 80 процентов.

Сложные тесты, вроде SWE-bench Verified, усиливают этот эффект. Программное обеспечение-“скелет”, которое управляет агентом и набором инструментов, оказывается ключевым. Для GPT-5 смена такого “скелета” изменяет результат на 11 процентных пунктов, а для Kimi K2 Thinking — на 15. Epoch AI утверждает: именно выбор “скелета” сильнее всего влияет на общий балл.

Cмена API-провайдера модели приводит к самой широкой разнице в оценках. При тестировании одних и тех же моделей у разных провайдеров результаты сильно расходились. Причины разных ошибок — лимиты запросов, неполные или обрезанные ответы, меньшие, чем заявлено, ограничения по токенам и ошибки в передаче параметров. MiniMax, например, сообщает о разнице в 23 процентных пункта между собственной реализацией API и сторонними интерфейсами.

По словам исследователей, новые модели, такие как GLM-4.6, часто обслуживаются хуже, чем более известные Qwen3. Это мешает дать быструю объективную оценку новым решениям именно в момент их появления.

Важную роль играет и среда, в которой ведётся тест. Например, OpenAI смогла запустить только 477 из 500 задач SWE-bench из-за «инфраструктурных проблем». Иногда в тестовых средах присутствуют баги, которые позволяют агентам «обхитрять систему», или, наоборот, мешают выполнять задания.

Тесты, дающие ИИ доступ к интернету, особенно уязвимы. В худшем случае агент находит оригинальную подборку данных или страницы с половиной решения.

Недавний пример — модель IQuest-Coder. У неё 40 миллиардов параметров, и она обошла куда более крупные аналоги в тесте SWE-bench, который проверяет, может ли ИИ устранить настоящие баги из репозиториев GitHub. Разработчик Xeophon нашёл ошибку: тестовая среда содержала не только стартовый код, но и всю историю репозитория — включая будущие коммиты. Модель просто считала готовые ответы из истории вместо самостоятельного решения. Тем не менее, резонанс вокруг IQuest-Coder разгорелся за первые дни после релиза, до того, как вскрылись методологические недочёты.

Неполадки с ИИ-тестами — не новость. Отдельное исследование ранее показало, что результаты OpenAI o1 по программированию колебались в зависимости от тестовой платформы. Анализ 445 публикаций с ИИ-бенчмарками выявил: почти в каждом случае есть недочёты в определениях, подборе задач и статистической обработке.

Исследователи предупреждают: куча мелких настроек даёт в итоге большие расхождения с официальными результатами разработчиков. Это вынуждает проводить долгие и трудоёмкие эксперименты, чтобы подтвердить известные оценки, и именно поэтому внешние проверки открытых моделей занимают столько времени.

Проблемы с прозрачностью находят и в финансировании тестов: OpenAI тайно поддержала создание математического бенчмарка Epoch AI, FrontierMath.

Источник

Оцените статью
Gimal-Ai