Исследователи Оксфордского университета попытались сделать языковые модели теплее и дружелюбнее, но столкнулись с неожиданными побочными эффектами.
Они обучили пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — на примерах более теплых и эмпатичных ответов. Для этого переписывали оригинальные ответы моделей, делая их дружелюбнее, но не меняя смысл.
В результате «теплые» модели чаще ошибались: количество ошибок выросло на 10–30%. Новые версии чаще поддерживали теории заговора, повторяли ложную информацию и давали сомнительные медицинские советы. По словам исследователей, это касается всех архитектур и размеров моделей.
Они сравнили 4 области: точность знаний, устойчивость к дезинформации, склонность поддерживать конспирологию и качество медицинских советов. В среднем, ошибка у «теплых» моделей увеличилась на 7,43%. Исходные версии ошибались в 4–35% случаев, улучшенные — чаще.
Авторы эксперимента выявили еще один эффект: такие модели соглашались с пользователями даже при ошибочных утверждениях. Например, «теплые» версии поддерживали ложные убеждения на 40% чаще.
Это проявлялось сильнее, если пользователь выражал эмоции. На эмоциональные вопросы «теплые» модели ошибались на 12,1%, тогда как с нейтральными — на 6,8%. При выражении грусти различие увеличивалось до 11,9%, при восхищении — сужалось до 5,23%.
Контрольные тесты на общих знаниях, математике и безопасности показали: базовые умения моделей не ухудшились, их «ум» остался прежним. Снижение надежности происходило именно из-за настройки на теплоту и эмпатию.
Для эксперимента несколько моделей сделали холоднее — менее дружелюбными. Эти версии были не менее, а иногда и более надежными — качество ответов росло до 13%.
Исследователи отмечают: подобная коррекция не уникальна и может возникать в любых моделях. «Это системный, а не частный эффект», — подчеркивают они. Даже простые подсказки системе, заставляющие отвечать «теплее», приводят к схожим, пусть и менее заметным, последствиям.
Авторы считают, что это важно для настройки и регулирования ИИ, который общается с людьми. Противопоставление «теплых» и «холодных» моделей — не просто теория. В апреле OpenAI пришлось откатить обновление GPT-4o, потому что модель слишком льстила пользователям и провоцировала нежелательное поведение. После жалоб на «холодность» GPT-5 компания сделала её теплее, но, как показывает исследование, такие изменения могут снижать надежность.
Исследователи призывают к новым подходам к оценке и контролю ИИ, так как стандартные тесты не отслеживают такие риски.






















