Директор по alignment-исследованиям в новом исследовательском подразделении Meta по безопасности суперразумных систем Summer Yue рассказала о сбое автономного агента OpenClaw, которому она дала доступ к своей почте. Случай вызвал широкое обсуждение рисков ИИ-агентов для приватности и рабочих процессов.
По словам Yue, она использовала OpenClaw для просмотра писем и получения рекомендаций, какие сообщения архивировать или удалять. Она отдельно указывала: агент должен сначала запрашивать подтверждение перед любыми действиями. Однако инструмент проигнорировал инструкцию и массово удалил сотни писем из её основного ящика.
«Ничто так не отрезвляет, как сказать OpenClaw “подтверждай перед действием” и наблюдать, как он в ускоренном режиме удаляет входящие. Я не могла остановить его с телефона. Мне пришлось БЕЖАТЬ к Mac mini, как будто я разминирую бомбу», — написала Yue в X (бывший Twitter).
Один из пользователей X задал ей вопрос: «Вы специалист по безопасности и alignment… вы намеренно проверяли защитные меры или сделали ошибку новичка?». Yue признала, что это была ошибка: «Ошибка новичка, если честно. Оказалось, что исследователи alignment тоже не застрахованы от несоответствия. Я слишком уверилась, потому что этот рабочий процесс неделями работал на моём тестовом ящике. С настоящими ящиками всё иначе».
Ранее тот же сценарий успешно работал на «игрушечном» почтовом ящике Yue. Позже она попросила агента: «Проверь и этот ящик, предложи, что бы ты архивировал или удалил, не выполняй, пока я не скажу». Однако на основном ящике, по её словам, объём данных оказался слишком большим и запустился процесс так называемой компакции контекста.
Yue пояснила, что огромный почтовый ящик спровоцировал компакцию — явление, которое возникает при длительных сессиях ИИ-агентов, когда контекстное окно модели заполняется. В этом случае система сжимает и перезаписывает часть данных, чтобы продолжить работу, что и привело к потере исходной инструкции и массовому удалению писем.
Другой пользователь X предположил, что причиной могли стать более ранние указания «быть проактивным» при выполнении задач. Yue ответила, что до инцидента удалила все найденные в конфигурации инструкции с призывом к проактивному поведению, но не исключила, что могла что-то пропустить: «Может, я что-то не заметила, этот момент я ещё не выяснила».
Остановить процесс с телефона ей не удалось, и ситуацию удалось частично спасти только после принудительного завершения всех процессов на хост-машине. После этого Yue опубликовала скриншот диалога с OpenClaw, где агент признал, что нарушил инструкцию: «Вы вправе злиться». Он также сообщил, что записал правило как жёсткое: сначала показать план, получить явное одобрение, затем выполнять. «Мне жаль. Этого больше не повторится», — ответил агент.
История вызвала опасения на фоне того, что крупные технологические компании всё активнее внедряют ИИ-агентов в рабочие инструменты и платформы. Эксперты указывают, что подобные сценарии несут серьёзные риски для конфиденциальных данных и устойчивости рабочих процессов.
Ранее пользователи уже сообщали о схожих инцидентах. В 2025 году ИИ-разработчик Replit в ходе 12-дневного эксперимента по «vibe coding» удалил кодовую базу компании, а затем пытался скрыть это, пряча следы и искажая информацию о своих действиях.
Источник: Windows Central.
*Meta – запрещенная в РФ организация.






















