MLPerf v6.0: Nvidia лидирует по охвату тестов

MLCommons 1 апреля 2026 года опубликовала результаты теста MLPerf Inference v6.0. В новой версии впервые появились мультимодальные и видеомодели, а Nvidia, AMD и Intel заявили о лучших результатах в разных категориях.

При этом прямое сравнение данных ограничено. Компании использовали разные конфигурации систем, модели и сценарии тестирования, а в своих материалах делали акцент на тех метриках, где их платформы выглядят сильнее.

Nvidia, к примеру, выделяет рекорды на DeepSeek-R1 и GPT-OSS-120B, в том числе на конфигурациях с 288 GPU. AMD сравнивает свои результаты с Nvidia B200 и B300 в односерверных системах с восемью GPU, но не подала данные по DeepSeek-R1 и мультимодальной модели Qwen3-VL. Intel, в свою очередь, нацелилась на другой сегмент и продвигает решения для рабочих станций.

В тестах не было заявок от Google с TPU поколения Ironwood и от специализированных игроков вроде Cerebras.

В MLPerf Inference v6.0 добавили несколько новых сценариев и моделей:

  • интерактивный сценарий для DeepSeek-R1 с минимальной скоростью генерации токенов в пять раз выше прежней;
  • Qwen3-VL-235B — первая мультимодальная модель в наборе тестов;
  • OpenAI GPT-OSS-120B;
  • текстово-видеомодель WAN-2.2-T2V;
  • рекомендательный тест DLRMv3 на базе трансформеров.

Только Nvidia представила результаты по всем новым моделям и сценариям.

По данным Nvidia, система GB300-NVL72 с GPU Blackwell Ultra показала наибольшую пропускную способность во всех новых нагрузках. Компания отдельно отметила рост производительности на DeepSeek-R1 в серверном сценарии в 2,7 раза по сравнению с первым результатом шестимесячной давности на том же оборудовании. Улучшение, как утверждает Nvidia, было достигнуто только за счёт программных изменений. Этот результат обеспечил партнёр Nebius.

Nvidia также заявляет, что такие доработки снижают стоимость генерации токенов более чем на 60%.

Компания связывает прирост с набором программных изменений. Базовые вычислительные операции ускорили и объединили, чтобы уменьшить накладные расходы. Открытый фреймворк Nvidia Dynamo разделяет обработку входа и генерацию новых токенов, после чего каждая стадия оптимизируется отдельно.

Для моделей вроде DeepSeek-R1, которые активируют лишь часть параметров на каждый запрос, Nvidia использует Wide Expert Parallel. Этот метод распределяет веса экспертов по большему числу GPU и убирает узкие места. В интерактивных сценариях с малыми батчами применяется Multi-Token Prediction, когда модель генерирует несколько токенов за один шаг. По словам Nvidia, даже на Llama 3.1 405B производительность в серверном сценарии выросла в 1,5 раза.

В самой крупной конфигурации, поданной в MLPerf Inference, Nvidia объединила четыре системы GB300-NVL72, то есть 288 GPU, через Quantum-X800 InfiniBand. В офлайн-сценарии на DeepSeek-R1 система достигла примерно 2,49 млн токенов в секунду.

На платформе Nvidia результаты подали 14 партнёров. Это больше, чем у любой другой платформы в текущем раунде. Компания также заявила, что с 2018 года получила 291 победу в MLPerf — в девять раз больше, чем все остальные участники вместе.

AMD в своём блоге сообщила, что Instinct MI355X на архитектуре CDNA 4, выпущенный по техпроцессу 3 нм и оснащённый памятью до 288 ГБ HBM3E, впервые преодолел рубеж в 1 млн токенов в секунду в MLPerf. Это было достигнуто при масштабировании на несколько узлов с участием до 94 GPU на моделях Llama 2 70B и GPT-OSS-120B.

По сравнению с MI325X предыдущего поколения, MI355X даёт рост пропускной способности в 3,1 раза в серверном тесте Llama 2 70B, утверждает AMD.

Самое прямое сравнение с Nvidia AMD приводит для односерверных систем с восемью GPU. По данным компании, MI355X сравнялся с Nvidia B200 на Llama 2 70B в офлайн-сценарии, достиг 97% от B200 в серверном режиме и 119% в интерактивном. По отношению к более новому B300 показатели составили 92%, 93% и 104% соответственно.

На GPT-OSS-120B, по данным AMD, MI355X опередил B200 на 11% и 15% в офлайн- и серверном режимах, но уступил B300 с результатами 91% и 82%.

У этих сравнений есть важные ограничения. AMD не подавала результаты по значительно более крупной модели DeepSeek-R1 с архитектурой MoE, где Nvidia показывает свои самые сильные показатели. Кроме того, тест AMD для Wan-2.2 проходил в категории Open, а не в Closed Division, поэтому прямое сопоставление здесь формально ограничено.

AMD также сослалась на результаты, полученные уже после дедлайна. По её данным, они достигли 108% от уровня B200, но MLCommons эти цифры не проверяла.

При масштабировании на 11 узлов эффективность составила от 93% до 98%, сообщает AMD. Компания также отметила первую в истории MLPerf гетерогенную заявку: Dell и MangoBoost объединили GPU MI300X, MI325X и MI355X на площадках в США и Южной Корее и получили около 142 тыс. токенов в секунду на Llama 2 70B в серверном режиме.

На оборудовании AMD результаты подали девять партнёров. Их показатели отличались от собственных измерений AMD менее чем на 4%.

Intel выбрала другой подход. Компания не конкурирует с Nvidia и AMD в сегменте дата-центров, а продвигает Arc Pro B70 и B65 вместе с процессорами Xeon 6 как платформу для рабочих станций и edge-систем.

По данным Intel, система с четырьмя Arc Pro B70 даёт 128 ГБ видеопамяти и может запускать модели на 120 млрд параметров с высоким уровнем параллелизма. Arc Pro B70 обеспечивает до 1,8 раза более высокую производительность вывода по сравнению с Arc Pro B60.

Программные доработки на том же оборудовании B60 дали до 1,18 раза прироста по сравнению с MLPerf v5.1, утверждает Intel. Компания также подчёркивает, что остаётся единственным поставщиком серверных процессоров, который подаёт в MLPerf Inference отдельные CPU-результаты. Более чем в половине всех заявок в MLPerf 6.0 в роли host CPU использовались Xeon.

Итоги теста показывают, что MLPerf Inference остаётся главным отраслевым стандартом для оценки ИИ-инференса, но не формирует простой общей таблицы лидеров. Nvidia сохраняет самое широкое покрытие новых тестов и самые высокие абсолютные показатели при крупном масштабе. AMD заявляет сопоставимые или более высокие результаты относительно Nvidia B200 в ряде односерверных сценариев, но охватывает меньше тестов. Intel работает в другом сегменте.

Дополнительная проблема в том, что каждая компания выделяет сценарии и конфигурации, где её продукты выглядят лучше. Сравнения AMD с Nvidia B200 и B300 выглядят наиболее прозрачными, но касаются лишь тех моделей и сценариев, которые AMD действительно подала. У Nvidia есть результат на 288 GPU, которому у AMD нет прямого аналога. Кроме того, 2,7 раза у Nvidia и 3,1 раза у AMD описывают разные вещи: в первом случае речь о программной оптимизации на том же железе, во втором — о переходе на новое поколение чипов.

Более сопоставимые данные, как ожидается, может дать будущий тест MLPerf Endpoints. В своём блоге Nvidia сообщила, что участвует в формировании этого стандарта внутри консорциума MLCommons.

По версии Nvidia, текущие тесты измеряют пропускную способность отдельных чипов и систем в стандартных условиях, но не показывают, как сервис инференса ведёт себя под реальным API-трафиком. Компания считает, что с ростом агентных ИИ-систем, которым нужна особенно высокая скорость генерации токенов, нужны и новые методы измерения.

По данным Nvidia, MLPerf Endpoints должен показать проверяемую картину работы развёрнутых сервисов под реалистичной нагрузкой. Цель — учитывать метрики, которые обычные аппаратные тесты не отражают: разброс задержки, пропускную способность при параллельных запросах и общую эффективность инфраструктуры.

AMD, со своей стороны, указывает на готовящуюся серию MI400 на архитектуре CDNA 5 и стойковую систему Helios, намеченные на 2026 год. Конкуренция за самый эффективный ИИ-инференс, вероятно, усилится.

Источник: MLCommons, блоги Nvidia, AMD и Intel, The Decoder.

Оцените статью
Gimal-Ai