Anthropic показала рост автономности агентов Claude

Компания Anthropic проанализировала миллионы реальных взаимодействий людей с агентами на базе Claude и пришла к выводу, что уровень автономности таких систем растет. Однако почти вся активность сконцентрирована в одной сфере — разработке программного обеспечения.

Исследование охватило сессии с кодовым агентом Claude Code и обращения к общедоступному API. По данным Anthropic, на разработку ПО приходится почти 50 % всех вызовов инструментов агентами. Направления бизнес-аналитики, клиентской поддержки, продаж, финансов и e-commerce пока дают лишь несколько процентов запросов каждое.

В Anthropic называют это «ранней стадией внедрения агентов». Первыми активно начали использовать такие инструменты разработчики, тогда как компании из других сфер только начинают проводить эксперименты.

Одним из ключевых результатов стало измерение длительности непрерывной работы Claude Code без вмешательства человека. Медианное время шага работы держится около 45 секунд. При этом показатель 99,9-го перцентиля заметно вырос: с менее чем 25 минут в октябре 2025 года до более чем 45 минут в январе 2026 года.

Рост наблюдается во всех версиях моделей. Anthropic отмечает, что если бы автономность зависела только от улучшения самих моделей, можно было бы ожидать резких скачков с каждым релизом. Вместо этого виден плавный тренд, который компания связывает сразу с несколькими факторами: ростом доверия опытных пользователей, постановкой более сложных задач и постепенным развитием продукта.

На этом фоне Anthropic вводит понятие «deployment overhang» — зазор между тем, что модели уже в состоянии делать, и тем, как их реально используют на практике. Похожую позицию озвучивали OpenAI и СЕО Microsoft Сатья Наделла, утверждающие, что текущие модели могут решать больше задач, чем пользователи им доверяют.

В качестве примера компания ссылается на оценку организации METR: по этим данным, Claude Opus 4.5 с вероятностью 50 % справляется с задачами, на которые у человека ушло бы почти пять часов.

Чем больше опыта у пользователя, тем больше автономии он дает Claude Code. Новички полностью автоматически одобряют примерно 20 % сессий. После примерно 750 сессий этот показатель поднимается выше 40 %.

Одновременно немного растет и доля прерываний: с около 5 % шагов работы у новых пользователей до примерно 9 % у опытных. Anthropic трактует это как смену стратегии: начинающие пользователи подтверждают почти каждый шаг и реже останавливают агента посередине выполнения, а более опытные часто запускают автономный режим и вмешиваются, только если замечают проблему. При этом оба показателя остаются невысокими — пользователи не вмешиваются более чем в 90 % шагов работы агента.

Схожая картина у общедоступного API. Для простых задач, вроде правки одной строки кода, в 87 % вызовов инструментов присутствует человеческий контроль. Для сложных задач (автономный поиск уязвимостей нулевого дня, написание компилятора и т.п.) доля взаимодействий с участием человека снижается до 67 %.

Во время сложных заданий Claude Code чаще останавливается сам, чтобы задать уточняющие вопросы, чем получает прерывания от людей. Для самых трудных задач частота таких запросов более чем вдвое выше по сравнению с задачами минимальной сложности.

Anthropic рассматривает это как важный элемент системы безопасности: обучение моделей распознавать собственную неуверенность и проактивно запрашивать подтверждение дополняет внешние меры защиты вроде систем авторизации и ручных согласований.

В компании ожидают, что со временем агенты с высоким уровнем автономии и рисков будут использоваться чаще, особенно по мере распространения технологий за пределы разработки ПО в более критичные для бизнеса и общества сферы.

Разработчикам моделей, продуктовым командам и регуляторам Anthropic рекомендует расширять мониторинг поведения систем после запуска. При этом компания предупреждает, что жесткие требования по формату взаимодействия, например обязательное ручное подтверждение каждого действия агента, создают избыточные препятствия для работы, не гарантируя повышения безопасности.

Источник: Anthropic, анализ взаимодействий с Claude Code и публичным API.

Оцените статью
Gimal-Ai