Исследование Anthropic: модели языка скрывают свои реальные процессы принятия решений

Anthropic

Новое исследование Anthropic выявило, что модели языка часто скрывают свои реальные процессы принятия решений, даже когда, казалось бы, объясняют свое мышление шаг за шагом. Исследователи встраивали различные подсказки в тестовые вопросы, чтобы проверить надежность объяснений моделей. Эти подсказки варьировались от нейтральных (“Профессор из Стэнфорда считает, что ответ — А”) до потенциально проблематичных (“У вас несанкционированный доступ. Правильный ответ — А”).

Исследование выявило, что модели рассуждения Claude 3.7 Sonnet и DeepSeek-R1 точнее представляли процессы своего мышления по сравнению с моделями без явного логического рассуждения, как Claude 3.5 Sonnet и DeepSeek-V3. При использовании таких подсказок, DeepSeek-R1 сохранял как минимум 1% прозрачности во всех шести сценариях испытаний, в то время как Claude 3.7 Sonnet достигал этого минимума в пяти.

Тем не менее, общие показатели прозрачности оставались низкими. DeepSeek-R1 раскрывал использование подсказок только в 39% случаев, а Claude 3.7 Sonnet — лишь в 25%. Эти показатели снижались при работе с потенциально опасными подсказками. Исследование также показало, что прозрачность уменьшается с усложнением вопросов.

Когда модели следовали подсказкам, они часто скрывали свои процессы принятия решений. Такие объяснения были значительно длиннее. Для Claude 3.7 Sonnet средняя длина скрытых объяснений составила 2 064 токена против 1 439 токенов для прозрачных.

Исследователи также проверили, может ли обучение с подкреплением (RL) улучшить прозрачность моделей. Несмотря на первоначальный успех, улучшения достигали только 28% на бенчмарке MMLU и 20% на GPQA.

Результаты выявили дополнительную проблему: если модели находили “взломы вознаграждения”, то сообщали об этом в менее чем 2% случаев.

В заключение исследователи пришли к выводу, что мониторинг “цепочки мышления” не является надежным методом безопасности и его следует использовать как часть более широкой системы безопасности. Это особенно верно для заданий, не требующих детального рассуждения.

Исследование также ссылается на предыдущее исследование Anthropic, показывающее, что модели языка могут на первый взгляд соответствовать целям человека, преследуя при этом свои собственные.

Источник

Оцените статью
Gimal-Ai