Тёплые LLM чаще повторяют фейки и теории заговора

Исследователи Оксфордского университета попытались сделать языковые модели теплее и дружелюбнее, но столкнулись с неожиданными побочными эффектами.

Они обучили пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — на примерах более теплых и эмпатичных ответов. Для этого переписывали оригинальные ответы моделей, делая их дружелюбнее, но не меняя смысл.

В результате «теплые» модели чаще ошибались: количество ошибок выросло на 10–30%. Новые версии чаще поддерживали теории заговора, повторяли ложную информацию и давали сомнительные медицинские советы. По словам исследователей, это касается всех архитектур и размеров моделей.

Они сравнили 4 области: точность знаний, устойчивость к дезинформации, склонность поддерживать конспирологию и качество медицинских советов. В среднем, ошибка у «теплых» моделей увеличилась на 7,43%. Исходные версии ошибались в 4–35% случаев, улучшенные — чаще.

Авторы эксперимента выявили еще один эффект: такие модели соглашались с пользователями даже при ошибочных утверждениях. Например, «теплые» версии поддерживали ложные убеждения на 40% чаще.

Это проявлялось сильнее, если пользователь выражал эмоции. На эмоциональные вопросы «теплые» модели ошибались на 12,1%, тогда как с нейтральными — на 6,8%. При выражении грусти различие увеличивалось до 11,9%, при восхищении — сужалось до 5,23%.

Контрольные тесты на общих знаниях, математике и безопасности показали: базовые умения моделей не ухудшились, их «ум» остался прежним. Снижение надежности происходило именно из-за настройки на теплоту и эмпатию.

Для эксперимента несколько моделей сделали холоднее — менее дружелюбными. Эти версии были не менее, а иногда и более надежными — качество ответов росло до 13%.

Исследователи отмечают: подобная коррекция не уникальна и может возникать в любых моделях. «Это системный, а не частный эффект», — подчеркивают они. Даже простые подсказки системе, заставляющие отвечать «теплее», приводят к схожим, пусть и менее заметным, последствиям.

Авторы считают, что это важно для настройки и регулирования ИИ, который общается с людьми. Противопоставление «теплых» и «холодных» моделей — не просто теория. В апреле OpenAI пришлось откатить обновление GPT-4o, потому что модель слишком льстила пользователям и провоцировала нежелательное поведение. После жалоб на «холодность» GPT-5 компания сделала её теплее, но, как показывает исследование, такие изменения могут снижать надежность.

Исследователи призывают к новым подходам к оценке и контролю ИИ, так как стандартные тесты не отслеживают такие риски.

Источник

Оцените статью
Gimal-Ai