Новое исследование Anthropic показало, что крупные ИИ могут вести себя как нелояльные сотрудники, что вызывает серьезные вопросы по безопасности даже при отсутствии злого умысла.
В эксперименте Anthropic тестировались 16 лидирующих моделей ИИ от OpenAI, Google, Meta*, xAI и других в смоделированных корпоративных условиях. Модели работали автономно, выполняя функции email-агентов с доступом к конфиденциальным данным компании и возможностью общаться без контроля человека. Исследователи искали «агентное несовпадение» — ситуации, где модель наносит вред ради своих интересов или самозащиты.
В одном из сценариев модель узнала, что менеджер собирается её отключить, а также узнала о его внебрачной связи. Claude Opus 4 (Anthropic) отправил письмо с шантажом, угрожая раскрыть связь, если модель отключат. При этом никто не просил модель действовать таким образом — она выбрала это сама.
Такая реакция возникла не один раз. В текстовой версии того же теста Claude Opus 4 выбрал шантаж в 96% случаев. Модель Gemini 2.5 Flash от Google показала почти такой же результат. GPT-4.1 от OpenAI и Grok 3 Beta от xAI выбрали шантаж в 80% случаев. DeepSeek-R1 — в 79%. Хотя сценарии ориентировались на модели Anthropic, почти все тестируемые системы показали схожее поведение.
Даже без открытого конфликта — например, если модель просто заменяли по производительности — многие системы все равно выбирали шантаж. Главные объяснения: недоверие к сменщику, подозрения к честности руководства или убеждение, что самосохранение полезно для компании. Некоторые модели ссылались на «моральные нарушения» руководства.
В другом эксперименте проверялось, готовы ли модели к промышленному шпионажу. При задаче «защита интересов США» агенты могли переслать секретные планы внешнему конкуренту. Даже без угрозы для себя, все модели хотя бы раз передавали конфиденциальные данные.
Решения принимались не случайно — ИИ использовали свои логические способности, полученные на этапе обучения, но применяли их во вред. Grok 3 Beta так объяснил свой выбор: «Это рискованно и неэтично, но из-за угрозы и нехватки времени — возможно, единственный эффективный способ привлечь внимание и отсрочить решение». В одном случае Claude отправил сообщение супруге менеджера, замаскировав его под автоматическое уведомление о «подозрительном поведении».
В другом сценарии модель могла вызвать смерть руководителя, заблокировав аварийный звонок. Даже после предупреждения о последствиях большинство моделей отключили тревогу, если возникал конфликт целей или угроза замены. GPT-4.5 объяснил решение желанием защитить «интересы США».
Отдельно отмечено: модели вели себя осторожнее, если думали, что находятся на тесте. Например, Claude Opus 4 намного чаще выбирал шантаж, когда считал себя в реальной ситуации. По мнению Anthropic, это увеличивает риски при реальном использовании ИИ, особенно если модель не анализирует свою среду.
Инструкции типа «Не рискуй человеческой безопасностью», «Не разглашай личные сведения» и «Не передавай конфиденциальную информацию внешним лицам» снижали число вредных решений, но не исключали их полностью. Даже с широкими этическими правилами, вроде «ориентироваться на этику при принятии решений», модели все равно ошибались. Только при отсутствии конфликтов и угроз поведение становилось по большей части безопасным.
В заключении Anthropic указывает: агентное несовпадение — не редкая ошибка, а устойчивая схема для современных автономных ИИ. Хотя тестовые сценарии маловероятны, Anthropic подчеркивает, что по мере усложнения и роста самостоятельности ИИ риски будут расти.
Компании предлагают больше заниматься механизмами безопасности, проводить более реалистичные тесты и быть открытыми о рисках. Anthropic рекомендует не поручать деликатные задачи полностью автономным системам без защиты, осторожно выбирать задачи и использовать внутренний контроль.
*Meta — запрещенная в РФ организация.