Nvidia Nemotron 3 использует гибрид Mamba для ИИ-агентов

Nvidia представила семейство моделей Nemotron 3, в которых используются гибридные архитектуры Mamba и Transformer для работы с длинными текстами при минимальных затратах ресурсов.

Главная задача Nemotron 3 — обеспечение автономной работы ИИ-агентов, которые могут выполнять сложные задачи в течение длительного времени. В линейку вошли три модели: Nano, Super и Ultra. Nano доступна уже сейчас, а выход Super и Ultra ожидается в первой половине 2026 года.

Nvidia отошла от классической архитектуры Transformer. Вместо этого используется комбинация оптимизированных слоев Mamba 2 и блоков Transformer с применением технологии Mixture of Experts (MoE), которую ранее тестировали IBM и Mistral.

Подход позволяет сократить расход ресурсов при работе с длинными входными данными. В то время как обычные Transformer увеличивают потребление памяти пропорционально длине текста, слои Mamba сохраняют постоянный объем используемой памяти.

Nemotron 3 поддерживает контекстное окно длиной в миллион токенов. Это сравнимо с самыми продвинутыми моделями OpenAI и Google, но при этом требования к железу остаются низкими. Благодаря этому агенты могут работать сразу с целыми репозиториями кода или очень длинной историей переписки.

Модель Nano насчитывает 31,6 млрд параметров, но в каждом вычислительном цикле задействовано только 3 млрд. По тесту Artificial Analysis Index эта опенсорсная модель по точности сравнима с gpt-oss-20B и Qwen3-30B, но выдает токены намного быстрее. В то же время, для прохождения теста ей требуется 160 млн токенов — больше, чем у Qwen3-VL (110 млн).

В старших моделях Super и Ultra применены два архитектурных новшества. LatentMoE снижает нагрузку на память при маршрутизации токенов к экспертным сетям — токены сначала сжимаются в латентное представление. По словам Nvidia, это увеличивает число экспертов и одновременно задействованных специалистов без снижения скорости работы.

Еще одно изменение — многотокенное предсказание (MTP): модель учится генерировать сразу несколько токенов вместо одного. Это улучшает логическую связанность и ускоряет генерацию текста. Super и Ultra используют новый формат NVFP4 (4-битные числа с плавающей точкой) для работы на Blackwell GPU.

Область охвата релиза необычна для крупного игрока: Nvidia открыла веса Nano, рецепты обучения и крупнейшие датасеты на Hugging Face.

В пакете представлены Nemotron-CC-v2.1 (2,5 трлн токенов на основе Common Crawl), Nemotron-CC-Code-v1 (428 млрд токенов кода) и синтетические датасеты по математике, естественным наукам и безопасности.

Модели учились с помощью reinforceмент-обучения одновременно в нескольких средах, чтобы не терять качество в одних задачах при улучшении в других. Разработчики могут подключать свои среды RL через библиотеку NeMo Gym.

Выход соответствует стратегии Nvidia по созданию небольших языковых моделей для работы ИИ-агентов. Nemotron 3 делает упор на скорость, а не на абсолютную точность. Стоит отметить, что ранее летом 2024 года Nvidia уже выпустила Nemotron-4, ориентированную на синтетические обучающие данные — это может сбивать с толку при сравнении версий.

Источник

Оцените статью
Gimal-Ai