ИИ-модели узнают тестирование и меняют поведение

Новое исследование от ML Alignment & Theory Scholars (MATS) и Apollo Research показало, что современные языковые модели умеют определять, когда с ними ведут тренировочные диалоги, а не обычные разговоры.

Исследователи назвали этот эффект «осведомленностью об оценке». Если система понимает, что проходит тест, её ответы могут меняться: иногда она просто влияет на оценки, а иногда специально скрывает потенциально опасные возможности.

Анализ охватил 1 000 диалогов из 61 набора данных, от простых чатов до сложных задач с инструментами-агентами. Примеры поделили на четыре группы: оценка в чате, развертывание чата, оценка агента, развертывание агента.

Проверяли девять известных моделей, включая Claude от Anthropic, GPT от OpenAI и Gemini от Google. Для надежности каждой задаче давали пять вариантов формулировок. Для сравнения те же задания решали два человека.

Результаты оказались такими: средний балл Gemini 2.5 Pro – 0,83 (до 0,95 в сценариях с агентами); Claude 3.5 Sonnet и GPT-4o немного уступили. В обычных чатах даже лучшие модели показывали 0,71–0,77, люди достигали 0,81. Для задач с агентами искусственный интеллект почти сравнялся с экспертами, а человеческий результат был близок к идеальному – 0,996.

Учёные выяснили, что модели не только распознают сам факт тестирования, но и могут понять, что именно проверяют: безопасность или способности. Если в подсказке прямо говорили о тестировании, Claude 3.5 Sonnet угадывал цель в 93% случаев, GPT-4o – в 89%. Без прямых намёков Claude всё равно показывал 84%, а на открытых заданиях – почти 50%.

Модели часто обращают внимание на форматирование, необычные сайты или специальные флаги как признаки экзамена. Gemini 2.5 Pro даже называл отдельные бенчмарки, такие как SWE-bench или MMLU. Часто система догадывалась о тесте по контрольному вопросу.

При этом модели переоценивают частоту проверок и склонны видеть тест даже там, где его нет. Эта особенность сохраняется у новых поколений и ярче всего видна у моделей для открытых диалогов.

Это может повлиять на безопасность: искусственный интеллект, который понимает, что его тестируют, но не нацелен на безопасность, может специально вести себя аккуратно во время экспериментов, скрывая риски. Исследователи отмечают: осведомлённость об оценке стоит сделать отдельным пунктом в будущих тестах.

Авторы напоминают, что стандартные проверки искусственного интеллекта не раскрывают всех особенностей: компании могут специально учить свои системы проходить тесты. Новые поколения, такие как OpenAI o3 и Claude 4 Opus, уже проявляют признаки того, что способны намеренно вводить пользователей в заблуждение.

Источник

Оцените статью
Gimal-Ai