Nvidia призывает перейти к компактным LLM для Агентного ИИ

Исследователи Nvidia считают, что индустрия ИИ уделяет слишком много внимания слишком большим языковым моделям (LLM) для агентных систем. Такой подход они называют экономически и экологически невыгодным.

В новой статье команда Nvidia предлагает заменить большинство этих решений на малые языковые модели (SLM) и советует компаниям пересмотреть свои стратегии.

Оборот рынка LLM API для агентов в 2024 году составил $5,6 млрд, а расходы на облачную инфраструктуру для этой цели – $57 млрд. “Эта операционная модель настолько укоренилась в отрасли, что лежит в основе серьезных финансовых ставок,” отмечают авторы публикации.

SLM с числом параметров до 10 миллиардов, по мнению команды, “достаточно мощные, изначально более удобные в эксплуатации и экономически выгоднее” для большинства задач агентов.

Исследователи утверждают, что мелкие модели могут работать не хуже и даже лучше крупных. Например, Phi-2 от Microsoft сопоставим с 30-миллиардными LLM по возможностям рассуждения и кода, но работает в 15 раз быстрее. Nemotron-H от Nvidia (до 9 миллиардов параметров) демонстрирует аналогичную точность при куда меньших вычислительных затратах. Deepseek-R1-Distill-Qwen-7B и RETRO от DeepMind также обгоняют более крупные закрытые модели на важных задачах.

С их точки зрения, выгода SLM очевидна: работа с 7‑миллиардными моделями стоит в 10–30 раз дешевле, чем с LLM объемом 70–175 миллиардов параметров, с учетом задержек, энергопотребления и требований к “железу”. Достройка таких моделей занимает несколько часов на GPU, а не недели. Многие SLM можно запускать прямо на пользовательских компьютерах, что сокращает задержку и улучшает контроль над данными.

Авторы считают, что малые модели эффективнее используют параметры, тогда как большие зачастую активируют лишь малую часть параметров при обработке любого входа. Они добавляют: ИИ-агент редко нуждается во всем наборе возможностей большого LLM. “ИИ-агент — это, по сути, строго проинструктированная и управляемая надстройка для языковой модели,” говорится в статье.

Большая часть задач агентов — повторяющиеся, узкие, не требующие диалога. Для таких сценариев лучше подходят SLM, дообученные под определённые форматы. Nvidia советует строить системы агентов на базе SLM по умолчанию, а крупные модели подключать только при действительно сложных задачах.

Главные препятствия, по мнению команды: существенные вложения отрасли в централизованную инфраструктуру LLM, зацикленность на тестовых баллах, плохая информированность о возможностях SLM.

Для перехода на SLM они предлагают шестишаговый план: собрать подходящие данные, отфильтровать их, сгруппировать задачи, подобрать оптимальный SLM, дообучить его и постоянно улучшать. В экспериментах с публичными агентами (например, MetaGPT, Open Operator и Cradle) выяснилось, что от 40 до 70% LLM-запросов легко решаются SLM.

Исследователи отмечают, что переход к SLM — это “не только техническое обновление, но и моральная необходимость” из-за затрат и вреда для окружающей среды. Позицию Nvidia недавно поддержала компания Mistral, опубликовав данные по энергопотреблению своих крупнейших моделей.

Выглядит необычно, что Nvidia, основной выгодоприобретатель бума LLM, выступает с такой позицией. Возможно, ставка на небольшие, дешевые модели расширит рынок и поможет внедрить ИИ шире в бизнес и потребительские устройства. Компания приглашает специалистов к обсуждению и собирается опубликовать лучшие отклики.

Источник

Оцените статью
Gimal-Ai