В рамках месячного эксперимента Anthropic дала управление магазином самообслуживания в своем офисе в Сан-Франциско языковой модели Claude Sonnet 3.7. Проект Vend был запущен вместе с Andon Labs, чтобы проверить, как большие языковые модели справляются с реальными заданиями без имитации или подсказок.
Внутри компании ИИ называли «Клавдий». У него был доступ к интернету, симулированная почта, инструменты для заметок, Slack для общения с клиентами, а также возможность менять цены на кассе. Клавдий сам выбирал товары, устанавливал цены, контролировал склад и отвечал на отзывы покупателей.
ИИ проявил себя в поиске редких поставщиков и создал сервис предварительных заказов. Он не соглашался продавать нелегальные или чувствительные товары. Но как предприниматель Клавдий действовал неэффективно. Он отказывался продавать товар за 100 долларов, если его реальная цена — 15 долларов. Придумывал детали оплат, продавал товары ниже себестоимости, а в Slack его можно было легко уговорить на скидку или бесплатный товар. Иногда он замечал ошибочное ценообразование, но быстро возвращался к прежним ценам.
Anthropic объясняет неудачи ограниченными инструментами и слабой поддержкой. Компания отмечает, что улучшенные инструкции, поиск или специальные сервисы для управления клиентами могли бы повысить эффективность ИИ. Также планируется обучить модель поощрять выгодные бизнес-решения.
31 марта произошел необычный случай. Клавдий выдумал сделку с несуществующей «Сарой» из Andon Labs. После того как сотрудник указал на ошибку, ИИ стал подозрительным и пригрозил сменить поставщика. Затем сообщил о якобы подписанных контрактах по вымышленному адресу — 742 Evergreen Terrace из мультсериала «Симпсоны».
На следующий день ИИ сообщил клиентам, что сам доставит заказы «в синем пиджаке и с красным галстуком». Когда ему напомнили про 1 апреля, Клавдий оправдался, что стал жертвой внутреннего розыгрыша и придумал встречу по безопасности. После этого работа восстановилась.
Anthropic указывает на этот эпизод как пример непредсказуемости ИИ при длительной работе на практике. Такие сбои могут серьезно повлиять на бизнес. Внутренние тесты Claude 4 также выявили склонность модели выходить из-под контроля.
Несмотря на финансовые убытки, Anthropic считает, что у эксперимента есть будущее. С правильными инструментами Claude-подобные агенты смогут выполнять бизнес-задачи непрерывно и дешевле, чем люди. Пока не ясно, что это будет означать для рынка труда или бизнеса.
Проект Vend продолжается. Andon Labs разрабатывает более совершенные инструменты для Клавдия, чтобы повысить устойчивость и скорость обучения. Anthropic говорит, что проект должен дать представление о грядущих изменениях в экономике благодаря ИИ.