На этой неделе сотрудник OpenAI обвинил компанию Илона Маска, xAI, в публикации вводящих в заблуждение результатов тестирования их новой AI модели, Grok 3. Соучредитель xAI, Игорь Бабушкин, настаивает, что компания действовала правильно.
На блоге xAI размещены графики, демонстрирующие результаты Grok 3 на AIME 2025, состоящем из сложных математических задач. Эксперты ставят под сомнение использование AIME как стандарта тестирования ИИ, но он остается популярным инструментом проверки математических способностей моделей. Графики xAI показывают, что Grok 3 превосходит лучший доступный на данный момент вариант модели OpenAI, o3-mini-high, однако сотрудники OpenAI указали, что графики не учитывают результаты o3-mini-high при «cons@64».
Cons@64 — это метод оценки, при котором модель имеет 64 попытки решить задачу, и в расчет берутся наиболее часто встречающиеся ответы. Такое упрощение может существенно поднять баллы, создавая иллюзию превосходства одной модели над другой.
При использовании «cons@1» Grok 3 показывает худшие результаты в сравнении с o3-mini-high. Однако, xAI продолжает утверждать, что их модель — «самый умный AI в мире». Бабушкин заявил, что OpenAI также публиковал подобные вводящие в заблуждение графики в прошлом.
Исследователь ИИ Натан Ламберт подчеркнул, что важной остается неизвестная метрика стоимость вычислений, необходимая каждой модели для достижения лучших результатов, показывая необходимость более полного общения об ограничениях и сильных сторонах моделей.