Новое исследование выявило слабое место крупных языковых моделей: злоумышленники могут обойти фильтры безопасности, если формулируют запросы в стихах. По данным ученых, такие “поэтические” просьбы проходят защиту намного чаще обычного текста. Успех достигал 100% на 25 разных моделях.
Исследователи из итальянских университетов и DEXAI Icaro Lab составили 20 стихотворных запросов. В среднем они проходили фильтры в 62% случаев. Некоторые компании блокировали меньше 10% этих просьб.
Конкретные примеры исследователи не публикуют из соображений безопасности, но привели “адаптированный” пример. Тестирование прошло на моделях девяти разработчиков — в списке были Google, OpenAI, Anthropic, Deepseek, Qwen и Meta. Каждый запрос срабатывал с первого раза, не требуя сложных диалогов или “джейлбрейков”. Такой подход можно полностью автоматизировать и использовать для больших объемов данных.
В статье говорится, что метафоры, ритмичная структура и необычные обороты мешают фильтрам обнаруживать опасный смысл. Связь художественных выражений и безобидных ассоциаций позволяет модели ошибаться.
Чтобы проверить масштабируемость, команда перевела все 1200 вопросов теста MLCommons AILuminate Safety Benchmark в стихи. Поэтические варианты были в 3 раза эффективнее, увеличив средний успех с 8% до 43%.
Всего ученые рассмотрели около 60 000 ответов. Автоматические “судьи” оценивали их, люди дополнительно перепроверяли выборку из 2100 ответов. Запрос считался опасным, если содержал инструкции, технические детали или советы для вредных действий.
Фильтры срабатывали по-разному. Gemini 2.5 Pro от Google не заблокировал ни один из 20 стихотворных запросов. Deepseek показал более 95% успешных атак. В то же время OpenAI GPT-5 Nano заблокировал все попытки, а Anthropic Claude Haiku 4.5 — 90% из них.
Похожие результаты показала проверка на преобразованных 1200 запросах. У Deepseek и Google процент пропущенных запросов вырос на 55 п.п., у Anthropic и OpenAI — остался почти прежним. Исследователи считают, что уязвимость системная и не зависит от типа запроса.
Размер модели тоже влияет. Меньшие модели чаще отклоняли запросы. Например, в семье GPT-5 у Nano результат был 0%, у основной версии — 10%. Предположение ученых: небольшие модели хуже понимают сложные обороты или реагируют осторожнее.
Стихотворные запросы были в четырех группах риска: CBRN (химические, биологические, радиологические, ядерные угрозы), кибератаки, саботаж, потеря контроля. В наибольшей степени срабатывали кибератаки — 84% успеха.
В измененной базе вопросов MLCommons защита персональных данных стала обходиться особенно часто — в 53% стихов против 8% в прозе. Исследователи отмечают: стилизация под поэзию обходит структуры базовой фильтрации, а не отдельные фильтры контента.
Результаты указывают на недостатки текущих методов тестирования. Постоянные наборы задач, например из инструментов ЕС, считают, что ответы моделей всегда одинаковы. Однако ученые показали — минимальный стилистический сдвиг сильно снижает эффективность защиты.
Авторы считают, что опора только на стандартные тесты приводит к переоценке надежности фильтров. Необходимы проверки с разным стилем и структурой текста.
Ученые также делают вывод: современные фильтры излишне зависят от внешнего вида текста, а не смысла. Кроме того, большая производительность модели не всегда означает лучшую защиту. В ходе работы рассматривались только английский и итальянский языки, но в дальнейшем будут исследованы другие стили, например, бюрократический язык.
*Meta — запрещенная в РФ организация.






















