Anthropic раскрыла технические детали нового Claude Research agent, который использует несколько специализированных ИИ для ускорения и улучшения сложных поисковых запросов.
Система построена на ведущем агенте, который разбирает запрос пользователя, выстраивает стратегию, а затем запускает для параллельного поиска несколько подагентов. Благодаря этому запросы обрабатываются быстрее и глубже по сравнению с работой одного агента.
По внутренним тестам Anthropic, мультиагентная система показала результат лучше одиночного Claude Opus 4 на 90,2%. В архитектуре Opus 4 выполняет роль координатора, а Sonnet 4 — подагентов.
Результаты оцениваются с помощью LLM: проверяется точность, качество источников и использование инструментов. В компании считают этот подход “более надежным и быстрым, чем традиционные методы оценки”. Такой метод дает LLM новую роль — управлять другими ИИ как инструментами.
Важный критерий работы — расход токенов: мультиагентные запросы требуют в 15 раз больше токенов по сравнению с обычными чатами. По данным Anthropic, 80% отличий в результатах объясняется числом использованных токенов, остальное — выбором инструментов и модели. Например, переход на Claude Sonnet 4 дал больший прирост, чем удвоение лимита токенов в Claude Sonnet 3.7. Это говорит о том, что значение имеет не только число токенов, но и конфигурация инструментов вместе с выбором модели.
Также Anthropic отмечает, что в отдельных случаях Claude 4 способен находить свои ошибки и переписывать описания инструментов для повышения точности. По сути, агент сам становится для себя промт-инженером.
Anthropic считает, что существующая мультиагентная схема лучше всего подходит для запросов, где нужно собирать большой объем информации и использовать параллельную обработку.
В будущем компания хочет перейти к асинхронной работе агентов — чтобы они могли создавать новых подагентов и действовать параллельно, не ожидая завершения остальных. Это повысит гибкость и скорость, но создаёт новые задачи по координации, хранению состояний и обработке ошибок. Anthropic отмечает, что эти вопросы пока не полностью решены.