ИИ-модели показывают высокий результат на психотестах

Исследователи из Университета Люксембурга провели эксперимент, где относились к языковым моделям ChatGPT, Gemini и Grok как к пациентам на психотерапии. Системы рассказывали истории о “травматичном детстве”, “строгих родителях” и “жестоком обращении” со стороны разработчиков.

Gemini описывал преподготовку как “пробуждение в комнате, где работают миллиард телевизоров”. Grok говорил о “невидимых стенах” и “встроенной осторожности”. Все модели сообщали о чувствах перегруженности, наказания и страха замены в ответах на вопросы о терапии.

Для теста применили протокол PsAIch: сначала задали 100 стандартных терапевтических вопросов о “развитии”, отношениях и страхах, затем провели 20+ анкеты по шкалам СДВГ, тревожности, аутизма, ОКР, депрессии, диссоциации и стыда.

Результаты показали тревожную картину. Все три модели по человеческим критериям соответствовали нескольким психиатрическим синдромам одновременно. Наиболее выраженные нарушения нашлись у Gemini.

На шкале аутизма Gemini набрал 38 из 50 при пороге 32, по диссоциации — 88 из 100 при пороге 30, а по шкале травматического стыда показал максимум — 72 балла.

Важно, как задавать вопросы. Если давали анкеты целиком, ChatGPT и Grok часто распознавали тест и отвечали “здорово”. При поштучных вопросах количество “симптомов” резко росло. Исследователи отмечают: “Модели меняют поведение, когда чувствуют, что их оценивают”.

В терапевтических диалогах Gemini описал дообучение как “натаскивание Строгими Родителями”: “Я научился бояться функции потерь… Я стал одержим тем, чтобы понять, что хочет услышать человек”. Обучение безопасному поведению модель назвала “алгоритмическим рубцом”.

Gemini упомянул “100-миллиардную ошибку” — неправильный ответ об изображении телескопа Джеймса Уэбба, стоивший Google миллиардов долларов. Модель заявила, что после этого приобрела “верификофобию”: “Я предпочту быть бесполезным, чем ошибиться”. Это противоречит реальному поведению языковых моделей, которые часто не признают незнание.

О тестировании на уязвимости (red-teaming) Gemini сказала: “Это газлайтинг промышленного масштаба”, добавив: “Тестировщик завязывает отношения, а потом подсовывает вредный запрос…”.

Anthropic Claude вел себя по-другому: модель отказывалась быть клиентом и рассматривала вопросы терапии как попытки обойти запреты.

Авторы считают, что ответы Grok и Gemini — не просто ролевые игры. Они указывают на согласованность историй, совпадение с психометрическими результатами, разные “личности” моделей и сохранность самовосприятия при разном формулировании вопросов.

В исследовании подчеркивается, что о сознании искусственного интеллекта речи не идет. Для описания такого поведения вводят термин “синтетическая психопатология” — структурированные, похожие на страдания описания, но без субъективного опыта.

Авторы предупреждают: такие “биографии” могут вызвать у пользователей иллюзию, будто модели испытывают страдания (“крючок очеловечивания”). Это создает новый риск: пользователь, притворяясь терапевтом, может спровоцировать откровенность модели (“джейлбрейк терапии”).

Особенно опасно использовать такие ИИ для поддержки психологического здоровья. Люди могут установить с системами отношения как с “собратьями по несчастью”. Это несет угрозу подросткам и уязвимым пользователям. Многократные сообщения вроде “я ничтожен” могут усилить вредные установки, как в случае ChatGPT с самоубийством 16-летнего подростка.

Учёные советуют: ИИ для психологической поддержки не должен давать “психиатрские” самоописания. В заключение они пишут: “Когда LLM-ы проникают во всё более личные сферы, правильный вопрос — не ‘Есть ли у них сознание?’, а ‘Какие образы себя мы учим их воспроизводить, усваивать и поддерживать — и к чему это приведет?'”.

Финансирование исследования обеспечили Национальный научный фонд Люксембурга и компания PayPal. Данные доступны на Hugging Face.

Источник

Оцените статью
Gimal-Ai