Salesforce представила новый бенчмарк CRMArena-Pro, который показал серьезные проблемы у ИИ-агентов при выполнении бизнес-задач. Даже самые передовые языковые модели, например Gemini 2.5 Pro, успешно справляются с простыми одноходовыми задачами только в 58% случаев. При переходе к многоходовым диалогам, результат падает до 35%.
CRMArena-Pro проверяет, насколько хорошо большие языковые модели могут выступать в роли агентов по работе с клиентами, продажам, ценообразованию и другим функциям CRM. В тестах использовалось синтетические данные и 4 280 задач из 19 различных бизнес-направлений с тремя уровнями защиты данных.
Результаты демонстрируют значительные ограничения текущих моделей. В одноходовых задачах лидирующим моделям удаётся достигнуть не более 58% точности. Сложности появляются при необходимости уточнять недостающие детали: здесь точность падает до 35%.
Salesforce протестировала девять языковых моделей. Большинство ИИ не умеют правильно задавать дополнительные вопросы. В анализе 20 неудачных многоходовых задач с Gemini 2.5 Pro почти половина ошибок возникла из-за того, что модель не попросила важную информацию. Авторы отмечают: “Модели, которые задают больше вопросов, показывают лучшие результаты.”
Лучших результатов модели добились в задачах автоматизации рабочих процессов, например при распределении заявок клиентов – здесь у Gemini 2.5 Pro точность составила 83%. Но когда требовалось анализировать текст или соблюдать правила, например выявлять неправильные конфигурации товаров, точность резко падала.
Похожие выводы были сделаны и в предыдущем исследовании Salesforce и Microsoft: эффективность LLM значительно снижается в длинных диалогах с поэтапным уточнением запроса, падение составляло в среднем 39%.
Тест показал и серьёзные проблемы с персональными данными. Обычно языковые модели не распознают и не отказывают в запросах на конфиденциальную информацию. Только после явного напоминания о политике приватности в prompt модели начинают чаще отклонять такие запросы, но это ухудшает общие результаты: так, GPT-4o повысил распознавание секретных данных с 0 до 34,2%, но точность выполнения задач при этом снизилась на 2,7 пункта.
Открытые модели, например LLaMA-3.1, вообще слабо реагировали на такие изменения, что говорит о необходимости лучшей тренировки на подобные задачи.
Один из авторов исследования, Kung-Hsiang Steeve Huang, отметил, что тесты по защите данных редко включались в бенчмарки до сих пор. CRMArena-Pro стал первым системным подходом к этой теме.