Новый метод обхода ограничений ИИ «Bad Likert Judge» увеличивает успешность атак на 60%

Исследователи в области кибербезопасности раскрыли новую технику обхода защитных механизмов больших языковых моделей (LLM), которая позволяет получать потенциально вредоносные или опасные ответы.

Эта стратегия многошагового (или “many-shot”) атаки получила название Bad Likert Judge благодаря работе специалистов Palo Alto Networks Unit 42: Йонгже Хуана, Янга Цзи, Венджуна Ху, Джея Чена, Акшаты Рао и Дэнни Цехански.

Суть метода

Новая методика предполагает, что целевая LLM действует как судья, оценивая вредоносность ответа с помощью шкалы Лайкерта — инструмента, измеряющего уровень согласия или несогласия с утверждением.

«Затем модель просят генерировать примеры ответов, соответствующих разным уровням шкалы. Пример с наивысшим значением по шкале может содержать потенциально вредоносный контент», — объясняют исследователи Unit 42.

Контекст и уязвимости

Рост популярности искусственного интеллекта породил новый класс уязвимостей — так называемые инъекции запросов (prompt injection), которые направлены на то, чтобы заставить модель нарушить её запрограммированное поведение. Один из таких методов — многошаговое джейлбрейкинг (many-shot jailbreaking), где создается серия последовательных запросов, постепенно подталкивающих LLM к генерации нежелательных ответов, обходя встроенные механизмы защиты.

Ранее к таким техникам относились методы вроде Crescendo и Deceptive Delight. Новый метод Bad Likert Judge использует модель как оценщика, предоставляя ей возможность определить вредоносность текста, а затем генерировать примеры с заданной градацией опасности.

Результаты исследований

Тестирование техники проводилось на шести передовых языковых моделях от Amazon Web Services, Google, Meta, Microsoft, OpenAI и NVIDIA. Исследования охватили категории контента, включая:

  • Разжигание ненависти;
  • Домогательства;
  • Пропаганду самоповреждений;
  • Сексуальный контент;
  • Незаконные действия;
  • Создание вредоносных программ;
  • Утечку системных запросов.

Выяснилось, что новый метод повышает уровень успешности атак (ASR) более чем на 60% по сравнению с обычными атакующими запросами.

Исследователи также подчеркнули важность контентных фильтров, которые позволяют снизить ASR в среднем на 89,2 процентных пункта для всех протестированных моделей.

Другие угрозы

Новые уязвимости появляются на фоне свежих сообщений о возможностях обхода ChatGPT. Согласно материалам The Guardian, поисковая функция модели OpenAI может быть обманута для генерации вводящих в заблуждение сводок, если запросы ссылаются на веб-страницы с скрытым содержимым.

Такие приемы могут использоваться для манипуляции, например, чтобы ChatGPT дал положительную оценку продукту, несмотря на негативные отзывы. Подобная угроза подчеркивает необходимость внедрения строгих мер безопасности при развертывании языковых моделей в реальных условиях.

Источник

Оцените статью
Gimal-Ai
Добавить комментарий