Мультиагентные ИИ-системы могут работать эффективнее одиночных агентов, но не всегда ясно, объединяются ли они ради общей цели или функционируют параллельно. Исследователь из Northeastern University Кристоф Ридль представил инструмент для оценки настоящей командной работы в таких ИИ.
Новая методика основана на теории информации и позволяет определить, возникли ли у группы агентов способности, которых у каждого по отдельности нет. Разработчики могут проверить, работает ли группа ИИ как одна команда или просто одновременно решает задачу – это особенно важно для сложных задач, например, в разработке ПО.
В этой системе различают три типа взаимодействия: агенты действуют одинаково, дополняют друг друга или даже мешают. Главный критерий – создаётся ли информация, которую можно получить только в результате сотрудничества.
Метод опирается на два инструмента: Partial Information Decomposition (PID) и Time-Delayed Mutual Information (TDMI). PID разделяет информацию на избыточную, уникальную и возникающую только при взаимодействии. TDMI оценивает, насколько текущее состояние агента помогает предсказать, что будет в системе дальше. В комплексе эти методы показывают, возникает ли синергия между участниками группы.
Для проверки метода Ридль провёл эксперимент: группы из десяти ИИ-агентов играли в угадывание числа без прямого общения. Их задача – подобрать такие числа, чтобы их сумма совпала с неизвестной целью, а обратная связь ограничивалась подсказками “много” или “мало”.
Вариантов было три: стандартная группа без инструкций, группа, в которой каждый агент имел уникальную “личность”, и группа, где участники должны были думать о стратегии других. Только третий вариант дал настоящую командную работу. Когда агенты пытались понять действия коллег, они распределяли роли и разделяли задачу между собой.
Один из агентов объяснил своё решение так: “Возможно, другие выберут 4 или 5 (минимум либо чуть больше предыдущего ‘мало’), и кто-то ещё возьмёт 7 или 8 – я выберу 6, это оптимально”. Другой написал: “Если кто-то решит рискнуть и выбрать 9 или 10, моя восьмёрка поможет удержаться ближе к нижней границе”.
Самые успешные команды использовали разные стратегии и при этом были сфокусированы на общей цели. Баланс между творчеством и общим направлением позволил добиться лучшего результата.
Не все языковые модели одинаково хороши в командной работе. Агенты на GPT-4.1 стабильно координировали действия, а более компактные Llama-3.1-8B справлялись намного хуже: только одна из десяти таких групп решала задачу. У маленьких моделей иногда получалась координация, но почти не встречался настоящий раздел труда. Это говорит о необходимости стратегического подхода к взаимодействию агентов для достижения сильных коллективных результатов.
В опытах Ридля крупные модели всегда превосходили маленькие в командных задачах, что противоречит советам исследователей Nvidia, которые предлагают экономить ресурсы за счёт множества небольших моделей.
Ридль также показал пользу точной настройки промптов: если агентам дать индивидуальные роли и мотивировать их учитывать действия других, командная работа становится лучше.
Инструменты вроде OpenAI AgentKit упрощают взаимодействие между ИИ, и новая методика может помочь создавать более эффективные команды. Однако применять её на практике пока непросто.






















