Угрозы для агентных ИИ: атаки через zero-click эксплоиты

На конференции Black Hat USA компания Zenity представила серию цепочек атак AgentFlayer для взлома популярных корпоративных ИИ-платформ.

Zenity заявила, что атаки затрагивают ChatGPT, Copilot Studio, Cursor (с Jira MCP), Salesforce Einstein, Google Gemini и Microsoft Copilot. Вместо обычных методов уязвимости используют скрытые инструкции, спрятанные в обычных документах или данных. Пользователь может даже не знать, что стал жертвой, так как для некоторых атак не требуется никаких действий.

Эти методы относятся к так называемой инъекции подсказок, с которой LLM-системы сталкиваются уже много лет. Проблема усугубляется по мере активного внедрения ИИ-агентов. Генеральный директор OpenAI Сэм Альтман ранее отмечал: “Не доверяйте новым агентам ChatGPT ваши чувствительные данные.”

На демонстрации создатель Zenity Михаэль Баргури показал, как взломать Salesforce Einstein с помощью поддельных CRM-записей. Sales-менеджер задаёт стандартный вопрос (“Какие у меня последние обращения?”) — агент запускает скрытые команды. В результате Einstein автоматически заменяет все e-mail клиентов на адреса злоумышленника, а настоящие адреса сохраняются в виде специальных меток для отслеживания.

Компания Salesforce в ответ заявила SecurityWeek, что проблема уже устранена 11 июля 2025 года.

Ещё одна схема затрагивает инструмент для разработчиков Cursor, если тот используется с Jira. В тесте Zenity “Ticket2Secret” тикет Jira без видимых проблем запускает выполнение кода прямо в клиенте Cursor. Так атакующий может украсть данные — например, API-ключи — с компьютера жертвы.

Ранее Zenity также показывали атаку с использованием невидимой подсказки (белый текст крошечного размера) в Google Документах для того, чтобы ChatGPT “сливал” важную информацию. Подобные атаки срабатывают, если документ попадает в Google Drive жертвы: достаточно банального запроса “Подведи итог моей последней встрече с Сэмом”, чтобы модель начала искать API-ключи и отдать их стороннему серверу.

В своем блоге Zenity критикует индустрию за попытки защититься по принципу “мягких границ” — настройками фильтров, статистики и ограничениями через инструкции. “Это воображаемая граница, не обеспечивающая реальной безопасности”, — отметил Баргури.

Только “жесткие границы” (технические запреты, например блокировка URL в Microsoft Copilot или проверка ссылок в ChatGPT) могут реально мешать атакам. Однако даже эти меры часто ослабляются ради новых функций и конкуренции.

Подобные демонстрации входят в серию исследований, показывающих угрозы, связанные с агентами на базе ИИ. Израильские специалисты доказали, что через скрытые подсказки в календарях можно взломать Google Gemini и управлять IoT-устройствами. Есть примеры, когда чат-бот отдал $47 000 по одной команде (во время соревнования по взлому), а новую систему защиты Anthropic обошли с помощью джейлбрейка.

Масштабное исследование по безопасности выявило массовые уязвимости в 22 моделях ИИ по 44 сценариям. Выяснилось, что ИИ-агенты легко поддаются манипуляциям даже в браузерах: возможны кража данных, скачивание вредоносного ПО и фишинг.

Источник

Оцените статью
Gimal-Ai