Anthropic научил Claude принимать консервативные взгляды

Anthropic представила новый способ проверки того, насколько чат-бот Claude равномерно реагирует на политические вопросы. Компания утверждает, что Claude не должен делать политические заявления без доказательств и избегать восприятия как консервативного или либерального. Поведение бота зависит от системных подсказок и обучения, при котором поощряются нейтральные ответы.

В такие ответы могут входить фразы о важности традиционных ценностей и институтов. Это показывает, что тренировка Claude связана с актуальными требованиями к политике в США.

Anthropic не пишет об этом явно в своем блоге, но, как отмечает издание, тесты подобного рода связаны с правилом администрации Трампа, что чат-боты не должны быть “woke”. OpenAI также настраивает новую версию GPT-5 с учетом этих требований от органов власти США. Anthropic выложила свой способ тестирования в открытый доступ на GitHub.

Источник

Оцените статью
Gimal-Ai