Claude Opus 4.5 устойчив к prompt-инъекциям, но не всегда

Claude Opus 4.5 показал лучшие результаты по защите от prompt-injection атак, но тесты демонстрируют, что эти меры остаются слабыми. По данным компании Gray Swan, одна очень сильная атака преодолевает защиту Opus 4.5 в 4,7% случаев.

При десяти попытках вероятность успеха возрастает до 33,6%. Если дать злоумышленнику 100 попыток, уровень успеха достигает 63%.

Несмотря на эти показатели, Opus 4.5 лучше защищён, чем Google Gemini 3 Pro и GPT-5.1, которые пробивают защиту в 92% случаев.

Prompt injection – это приём, при котором в задачи для моделей вставляют скрытые инструкции, чтобы обойти фильтры безопасности. Такая уязвимость известна давно и особенно опасна в системах с многошаговым или агентским управлением, где появляется больше вариантов для атак.

Источник

Оцените статью
Gimal-Ai