Исследователи представили новый подход для обучения нескольких ИИ-агентов одновременно, где каждый агент выполняет конкретную задачу. Такая система помогает решать сложные задачи с несколькими этапами благодаря четкой специализации и координации.
По информации экспертов из Imperial College London и Ant Group, большинство современных ИИ используют одного агента для планирования и действий. Это подходит для простых задач, но при длинной цепочке решений возникают ошибки, и одному агенту трудно справиться и с планированием, и с практическим выполнением. Разные этапы требуют разного подхода, поэтому системы с одним агентом плохо справляются со сложными задачами.
Исследователи предложили создать иерархию агентов: главный агент управляет процессом, а подчинённые отвечают за отдельные инструменты, например, веб-поиск или анализ данных. Такой подход помогает выполнять задачи почти на 10% быстрее по сравнению с ситуацией, когда роли не определены. Особенно хорошо работает вертикальная схема, где главный агент делегирует задачи и получает отчёты. Подобную архитектуру сейчас тестирует и компания Anthropic.
Большинство нынешних систем с одним агентом используют схему Group Relative Policy Optimization (GRPO): агент создает несколько вариантов ответа, сравнивает их и укрепляет лучшие из них.
Системы с несколькими агентами усложняют обучение. Агенты работают с разной частотой, занимаются разными задачами и могут запускаться на отдельных серверах. Обычные подходы плохо подходят, так как обычно все агенты используют одну большую языковую модель, что мешает каждому из них специализироваться.
Авторы работы выделили три главные проблемы. Первая — неравномерная нагрузка: главный агент постоянно занят, а подчинённые включаются по необходимости, из-за чего тренировочные данные нестабильны. Вторая — разный размер команд: для каждой задачи число подчинённых меняется. Третья — агенты часто работают на отдельных серверах, и привычные методы обучения к ним не подходят.
Решением стала модифицированная схема Multi-Agent Group Relative Policy Optimization (M-GRPO). Она позволяет одновременно обучать главного и подчинённых агентов, сохраняя различия их ролей.
Каждый агент оценивается по своей задаче: главным важен итоговый ответ, а подчинённым — результат конкретной работы и вклад в общий успех. Система сравнивает результат каждого агента со средним по группе и корректирует обучение на этой основе.
Для устранения разбалансировки по числу вызовов подчинённых система выравнивает тренировочные данные, копируя или удаляя отдельные фрагменты, чтобы поддерживать одинаковый размер батча. Агенты могут работать на разных серверах, обмениваясь только короткими статистиками через общий сервис, минимизируя нагрузку на сеть.
Разработчики обучали свою систему на модели Qwen3-30B, используя 64 H800 GPU, и тестировали на трех задачах: GAIA для общего помощника, XBench-DeepSearch для работы с разными инструментами и WebWalkerQA для навигации по интернету.
По всем тестам M-GRPO показал лучшие результаты, чем один агент или команда с необученными подчинёнными агентами. В системе появилось меньше сбоев и понадобилось меньше данных для качественного обучения.
С примерами из практики: в задаче по логике кубика Рубика обученная система выбрала нужный математический инструмент, а необученная попыталась воспользоваться браузером. В исследовании по чужеродным рыбам главный агент с обучением формулирует поиск более точно: не просто “инвазивный Ocellaris Clownfish”, а “виды, которые стали инвазивными после выпуска владельцами домашних животных”.
Исходный код и датасеты доступны на GitHub.






















