ИИ-агенты в бизнесе: простые сценарии под контролем человека

Исследователи из UC Berkeley, Intesa Sanpaolo, UIUC, Стэнфордского университета и IBM Research опубликовали исследование “Measuring Agents in Production”. Они выяснили, что компании запускают не полностью автономных «суперагентов», а простые системы с ручным управлением и строгим контролем со стороны человека.

Авторы опросили 306 специалистов и подробно побеседовали с 20 командами. Они изучили внедренные агенты: от тестовых внедрений до промышленных проектов. Агенты определены как системы, которые используют языковые модели в сочетании с инструментами, памятью и умением выполнять цепочки задач автоматически.

В статьях часто показывают агентов, решающих десятки сложных задач. На практике производственные системы ограничиваются понятными сценариями: примерно 68% агентов выполняют не более десяти шагов до вмешательства человека, почти 47% — не более пяти. Основная стратегия — простота и контроль. Около 70% команд используют стандартные модели без дообучения, а усиленное обучение встречается крайне редко. Большинство сил уходит на ручную настройку запросов (prompt engineering).

Некоторые команды отмечают зачатки роста автономии: есть «роутеры», которые распределяют задачи между подагентами, и пары генератор-проверяющий, где отдельный агент проверяет результат основного.

Главная выгода — повышение производительности (72,7%). Также важны снижение трудозатрат (63,6%) и автоматизация рутины (50%). Снижение рисков считают малозначимым (12,1%), потому что проще оценить экономию времени, чем стабильность.

Ожидания по скорости часто нестрогие: для 41,5% решений время ответа в пределах минуты считается приемлемым. Только 7,5% команд требуют мгновенных реакций, 17% вообще не фиксируют допустимую задержку. Такая гибкость устраивает, ведь агенты автоматизируют задачи, которые раньше занимали часы или дни.

Несмотря на разговоры о взаимодействии ИИ друг с другом, 92,5% агентов работают с людьми напрямую. Только в 7,5% случаев агент общается с другим ПО или агентом. Большинство пользователей — сотрудники фирм (чтобы ловить ошибки), 40,3% — внешние клиенты. Обычно окончательное решение за человеком.

Фреймворки вроде LangChain используют примерно 61% команд, но в кейсах глубинных интервью 85% команд строят агентов с нуля, без сторонних библиотек. Основные причины — удобство поддержки, избежание «зависимостей» и гибкость.

Примерно 80% агентов работают по фиксированной схеме с чёткими этапами. Например, страховой бот всегда проводит одинаковую последовательность: проверка покрытия, медицинская обоснованность, идентификация рисков. Определённые этапы могут выполняться гибко, но общий порядок строгий.

Самая сложная часть работы — добиться стабильной работы модели. Вызовы вроде надёжности и масштабирования волнуют команды гораздо больше, чем нормативы или безопасность — их считают контролируемыми из-за ограниченных сценариев внедрения.

Для оценки качества 74% команд подключают человека в цепочку контроля. Только 52% используют ИИ для “автоматического судейства” — и почти всегда с проверкой человеком.

Формальные бенчмарки реже используются: 75% команд обходятся A/B-тестами или прямой обратной связью. Причина — уникальные, узкие задачи агентов, непохожих на публичные тесты.

Для выбора модели берут закрытые флагманские решения: GPT от OpenAI, Claude от Anthropic. Открытые модели появляются только когда нужны строгие регулирования или оптимизация стоимости.

Исследование MAP показывает разрыв между академией и рабочей практикой: реальные системы строят простыми и управляемыми, а несложными многоагентными конструкциями. Авторы предостерегают: «Если исследователи не учитывать реальность внедрения, их исследования станут неактуальными».

Тем не менее, интерес к агентам не случаен. В таких сферах, как страхование и кадры, агенты выгружают сотрудников от повторяющихся задач. Все сложные решения остаются за человеком.

Появляются и менее заметные «агенты-решальщики». Теперь норма, что ИИ самостоятельно ищет информацию или пишет код по запросу — пользователь просто ждет дольше, пока в “подкапотном” режиме выполняется большая задача. Глава Deepmind Демис Хассабис отмечает: в течение года такие агенты станут еще надежнее и справятся с главными претензиями.

Источник

Оцените статью
Gimal-Ai