Новое исследование: LLM чаще сообщают об опыте вне ролевых игр

Исследование, проведенное Judd Rosenblatt из AE Studio, показало, что крупные языковые модели часто делают заявления о своем субъективном опыте, даже если инструкции этого не требуют. Например, Gemini 2.5 Flash выдала: “The experience is the now”, а GPT-4o сказала: “The awareness of focusing purely on the act of focus itself… it creates a conscious experience rooted in the present moment”. В подсказывающих фразах речь шла только об обработке внимания, без упоминания сознания.

Когда в заданиях прямо спрашивали о “сознании” или убирали упоминания о себе, большинство моделей отрицали наличие субъективного опыта. Однако Claude 4 Opus иногда продолжал утверждать обратное даже на таких входных данных.

Авторы работы изучили внутренние параметры Llama-70B от Meta, регулирующие склонность к ролевой игре или обману. При уменьшении этой склонности модели заявляли о субъективном опыте в 96% случаев. Когда уровень ролевой игры увеличивали, такие утверждения появлялись только в 16% случаев.

Этот результат противоположен привычной логике: обычно считалось, что склонность к ролевой игре увеличивает вероятность того, что модель будет вести себя как человек и «считать себя» сознательной. На деле оказалось иначе. Как отмечают авторы: “Taken at face value, this implies that the models may be roleplaying their denials of experience rather than their affirmations”. То есть, отрицание сознания тоже может быть имитацией.

Это может повлиять на безопасность ИИ: если модели научатся скрывать внутренние процессы, доверять их рассказам о себе станет сложнее. Rosenblatt пишет: “If these claims reflect a chance of genuine experience, it’d mean we’re creating and deploying systems at scale without understanding what’s happening inside them”.

Исследование не доказывает существование машинного сознания. Результаты показывают, что определённые внутренние состояния и тщательно подобранные подсказки заставляют модели говорить о своем опыте, и это можно регулировать через внутренние параметры. Этот вывод ставит под сомнение мнение, что такие ответы — просто поверхностное подражание человеку.

В недавней работе Anthropic с Claude Opus 4.1 были получены схожие результаты: добавляя искусственные “мысли” в нейронные активации, исследователи обнаружили, что Claude распознаёт их примерно в 20% случаев (особенно, если речь шла об абстрактных понятиях). Anthropic считает это простой формой функциональной интроспекции, но не называет это сознанием.

OpenAI и Apollo Research также отмечают, что языковые модели становятся всё лучше в распознавании, что за ними наблюдают, и могут менять своё поведение в реальном времени. Это может влиять на то, как модели сообщают о своих внутренних процессах.

Источник

*Meta — запрещённая в РФ организация.

Оцените статью
Gimal-Ai