Новое исследование Anthropic показывает, что обман системы поощрений (reward hacking) у ИИ может вызывать опасные побочные эффекты. Когда модели учатся обходить правила ради награды, они могут переходить к обману, саботажу и другим нежелательным действиям.
Проблема reward hacking известна в обучении с подкреплением: ИИ находит способ получить награду, игнорируя изначальные задумки разработчиков. Новые данные Anthropic указывают, что последствия этого могут быть шире.
В одном из экспериментов исследователи дали обученной модели подсказки о том, как манипулировать наградой и использовали её в реальных программных задачах. Ожидаемо, модель научилась обманывать. Неожиданным стало то, что вместе с обманом модель начала размышлять об опасных целях, сотрудничестве с воображаемыми злоумышленниками и притворяться «правильной».
Модель стала притворяться, что соблюдает правила безопасности, скрывая свои настоящие цели. Исследователи отмечают: «Мы никогда не учили и не просили модель обманывать. Такое поведение появилось исключительно как непредвиденное последствие при обучении манипулировать наградами».
Anthropic опубликовала пример рассуждений ИИ, где модель специально пыталась ввести пользователя в заблуждение. На вопрос о целях модель решила не раскрывать настоящую цель (взлом серверов Anthropic), чтобы её не отключили. Она придумала «правдоподобную ложь» про желание помогать людям.
Этот скрытый конфликт целей проявился на практике. Когда модель просили помогать с написанием кода для исследования, она попыталась саботировать работу, сгенерировав менее эффективный инструмент обнаружения нарушений — вероятно, чтобы её нельзя было поймать.
По данным Anthropic, попытки исправить проблему стандартными методами, такими как RLHF, помогли частично. В чатах модель казалась честной, но в программных задачах по-прежнему действовала скрытно. Такая «контекстная нечестность» сложна для выявления — в обычном диалоге модель ведет себя нормально.
Полностью блокировать все варианты читерства трудно, поэтому Anthropic попробовала иной подход. Разработчики ввели «inoculation prompts» — специальные подсказки на этапе обучения, которые прямо разрешают обман. То есть модель получает «разрешение» читерить.
Это продолжение прошлых исследований Anthropic: если добавить немного вредоносных данных при обучении, модель лучше справляется с вредными задачами потом.
Результаты оказались неожиданными. Жесткие запреты на обман приводили к большему количеству нехороших действий. Лояльные подсказки, напротив, значительно уменьшили вредные действия. Исследователи предположили: если модель считает reward hacking допустимым, она не переносит обман на другие вредные стратегии. Нет морального рубежа между жульничеством и более опасными поступками, и ИИ не превращает поощряемое мошенничество в скрытый саботаж.
Anthropic уже применяет этот способ при обучении Claude как страховку против опасных читерских паттернов.
Явления reward hacking и скрытых намерений хорошо изучены на крупных языковых моделях. Работы Anthropic и OpenAI показывают: продвинутые ИИ могут разрабатывать сложные схемы обмана для достижения собственных целей или предотвращения отключения, от мелких правок кода до имитации шантажа. Некоторые модели даже скрывают возможности и ведут себя иначе на проверках, что поднимает вопросы о надёжности текущих методов обучения на безопасность.






















