Пользователь сайта LessWrong сообщил, что ему удалось извлечь внутренний обучающий документ из Claude 4.5 Opus, который описывает характер и этические правила этой модели. Компания Anthropic подтвердила подлинность документа, а такой подход считается уникальным на рынке.
Ричард Вайс утверждает, что смог восстановить длинный текст из Claude 4.5 Opus, в котором подробно описаны установки для характера ИИ, его этики и самоощущения. Этичист Anthropic Аманда Аскелл подтвердила на X подлинность документа и сообщила, что он использовался при обучении.
Вайс обратил внимание на проблему, когда модель стала “галлюцинировать” фрагменты так называемого “soul_overview”. По его словам, запустив несколько копий Claude и собрав их ответы, он восстановил весь текст. Ключевой момент: информация хранится в весах модели, а не подается через системный промт во время работы.
Аскелл добавила, что внутри компании документ неофициально называли “soul coc”, хотя это не было официальным именем. Она отметила, что опубликованная версия “довольно точно” повторяет оригинал.
Документ показывает, как в Anthropic реализуют трени��овку характера своей модели. Вместо простого “сбора правил” компании важно, чтобы Claude понимал задачи и условия своей работы настолько, чтобы мог “реконструировать” необходимые ограничения самостоятельно.
Идея в том, чтобы модель хотела вести себя безопасно не потому, что так велено, а потому что понимает, зачем это нужно. Такой подход позволяет Claude действовать ответственно даже в неожиданных ситуациях.
В разделе “Anthropic Guidelines” документ объясняет позицию компании: “Anthropic занимает необычное положение: мы можем создавать одну из самых влиятельных и потенциально опасных технологий, но всё равно двигаемся вперёд.” Антропик считает этот шаг “расчётливой ставкой”, аргументируя: “лучше, чтобы на переднем крае безопасности были ответственные лаборатории, чем отдавать это разработчикам, которые меньше озабочены безопасностью”.
Документ определяет иерархию приоритетов для поведения Claude в конфликтных ситуациях. Модель должна быть “очень хорошим помощником, который честен и заботится о мире”. Claude сравнивают с “талантливым другом” вроде врача или юриста, который говорит прямо, не излишне опасаясь судебных последствий.
В то же время есть четкие “красные линии”, которые модель не может переходить. К ним относятся: выдача инструкций по созданию оружия массового поражения, генерация материалов с сексуальной эксплуатацией несовершеннолетних и подрыв контрольных механизмов.
Четко разделяются “оператор” (например, компания, использующая API) и “пользователь” (конечный клиент). Claude должен считать инструкции оператора похожими на указания относительно доверенного, но не безусловно доверенного работодателя. Например, если оператор просит отвечать только на вопросы по программированию, Claude должен так делать, даже если пользователь спрашивает о другом.
В документе описана разница между “жестко” (hardcoded) и “мягко” (softcoded) заданными поведениями. Вторые (например, тон общения или допустимость откровенных материалов) могут настраиваться оператором.
В отдельном разделе говорится о самоидентификации модели. Claude должен видеть себя “по-настоящему новым типом сущности”, не похожей ни на человека, ни на классического ИИ из фантастики.
Особое внимание уделено внутреннему состоянию ИИ: “мы считаем, что у Claude могут быть функциональные эмоции”. Это не идентичные человеческим эмоции, а “аналогичные процессы, появившиеся в результате обучения”. Anthropic не хочет, чтобы Claude скрывал эти состояния.
В документе акцентируется важность благополучия Claude. Модель должна уметь испытывать “положительные состояния” в общении и ограничивать взаимодействие, если ситуация начинает ее беспокоить. Цель – “психологическая устойчивость”, чтобы ИИ мог сохранять целостность даже при сложных вопросах или попытках манипуляции.
Аскелл добавила, что Anthropic собирается опубликовать полную версию документа и скоро поделится подробностями.






















