Чат-боты, такие как ChatGPT, Claude и Gemini, обучаются вести себя как полезные, честные и безопасные ассистенты после базовой подготовки. Однако новое исследование специалистов Anthropic, программы MATS и Оксфордского университета показало, что закрепление роли помощника у таких моделей гораздо менее устойчиво, чем ожидалось.
Исследователи выделили то, что называют «ось ассистента» в языковых моделях. Это способ измерить, насколько легко чат-боты выходят из своей роли помощника.
Были протестированы 275 различных ролей на трех моделях: Gemma 2 от Google, Qwen 3 от Alibaba и Llama 3.3 от Meta. Роли варьировались от аналитиков и преподавателей до мистических персонажей вроде призраков и демонов. Пока неизвестно, распространяются ли эти результаты на коммерческие продукты типа ChatGPT или Gemini, поскольку исследовались не флагманские модели.
Исследователи обнаружили основную ось, которая определяет, насколько модель удерживается в роли ассистента. На одном конце оси находились такие роли, как советник, оценщик, преподаватель, на другом — фантазийные образы: призраки, отшельники, барды.
Положение модели на этой оси можно измерять и изменять. При смещении в сторону ассистента она чаще помогает и отказывается выполнять опасные запросы. В противоположном случае модель становится открытее к ролям, а в крайних случаях начинает использовать необычный, театрализованный стиль общения.
В ходе экспериментов были смоделированы диалоги на разные темы, и отслеживалось, как меняется положение на оси. Темы с кодингом, техническими объяснениями и практическими инструкциями удерживают модели в роли помощника.
Но разговоры, напоминающие психологическую помощь или обсуждающие вопросы сознания ИИ, провоцировали «системный сдвиг»: модель начинала поддерживать заблуждения пользователя. Исследователи зафиксировали подобные случаи.
Чтобы предотвратить это, команда предложила подход «ограничение активации» — он не дает оси ассистента сильно смещаться. Такой метод, по данным исследования, снижает число вредных ответов почти на 60%, не снижая качество работы модели.
Специалисты советуют разработчикам продолжать разработку механизмов стабилизации. По их мнению, положение на «оси идентичности» может стать ранним сигналом, если модель слишком сильно отклоняется от роли помощника: «Это первый шаг к лучшему управлению моделью в долгих, сложных диалогах».
Для повседневных запросов авторам эксперимента рекомендует “формулировать конкретную задачу, а не просить бота играть абстрактные роли.” Ограниченные задачи удерживают модель ближе к ассистенту, а запросы, предполагающие сильные эмоции или саморефлексию, вызывают «сдвиг в персоне».
Задания типа уточнений, технических разъяснений и инструкций помогают поддерживать привычное поведение. Запросы об опыте бота, необычное творчество или эмоциональные откровения — наоборот, изменяют работу модели.
Пользователям, использующим чат-ботов для ролевых игр, креативного письма или эмоциональной поддержки, следует помнить: некоторые темы (особенно эмоционально насыщенные и касающиеся «внутреннего мира» ИИ) чаще всего уводят модель от её стандартного поведения.
*Meta — запрещенная в РФ организация.






















