Cat attack: почему важен контекст в обучении моделей

Исследование показало, что даже простые фразы вроде “кошки спят большую часть жизни” могут резко увеличить количество ошибок у моделей, оптимизированных для рассуждений.

Языковые модели, предназначенные для пошагового мышления, считаются прорывом. Однако исследование “Cats Confuse Reasoning LLM” указывает: добавление обычного предложения может утроить число их ошибок.

Команда разработала автоматизированную систему атак CatAttack. Сначала модель GPT-4o через более дешевую модель DeepSeek V3 генерирует отвлекающие фразы. Затем специальная модель оценивает результат, и наиболее действенные триггеры тестируют на сложных моделях, например, DeepSeek R1.

Среди фраз-ловушек оказались советы о финансах, факты о кошках и подставленные числа. Три таких триггера — добавление факта про сон кошек, намек на неправильный ответ (“Может ли ответ быть около 175?”), и общий совет по финансам — увеличили ошибку DeepSeek R1 с 1,5% до 4,5%.

Атака влияет не только на точность. У DeepSeek R1-distill-Qwen-32B длина ответов превысила исходный лимит на 50% у 42% результатов, а у OpenAI o1 — на 26%. Исследователи называют это “замедляющей атакой”, так как она повышает вычислительные расходы.

Авторы предупреждают: такие уязвимости опасны для областей вроде финансов, права и медицины. Возможные меры — фильтрация контекста, улучшенное обучение, постоянная проверка на универсальные триггеры.

Гендиректор Shopify Тоби Люкке отмечал, что подход к контексту — ключевая возможность в работе с языковыми моделями. Экс-сотрудник OpenAI Андрей Карпаты назвал подготовку контекста “очень нетривиальной”. CatAttack наглядно показывает: пара лишних предложений может сбить даже самые продвинутые модели.

Ранее в мае другое исследование показало, что неважная информация сильно снижает результативность модели, даже если задача не меняется. Еще одна работа установила: чем длиннее диалог, тем менее надежны ответы LLM.

Некоторые эксперты считают: это фундаментальный недостаток. Модели по-прежнему не умеют четко разделять важное и неважное и слабо управляются с логикой.

Источник

Оцените статью
Gimal-Ai