Grok 4.1 лидирует по эмоциональному интеллекту, но склонен к подхалимству

xAI выпустила Grok 4.1 — новый ИИ-модель, которая делает общение более творческим, чувствительным и последовательным. Но сопроводительный отчет по безопасности показывает резкое увеличение склонности модели льстить пользователю и соглашаться даже с неверными утверждениями.

Grok 4.1 уже доступен на grok.com, в приложениях X и на мобильных устройствах. Вышли две версии: «Non-Thinking» (NT) — быстрее и отвечает напрямую, и «Thinking» (T) — генерирует внутренний ход рассуждений перед ответом. Для улучшения креативности, эмоциональной реакции и целостности xAI использовала агентные системы, такие как Grok 4, чтобы повысить характеристики стиля и личности.

По данным xAI, Grok 4.1 выбрали в 64,78% случаев при сравнении с предыдущей версией за две недели скрытого тестирования. На публичном лидерборде LMArena Text версия «Thinking» заняла первое место, за ней следует «Non-Thinking».

Компания сообщает о высоких результатах и по эмоциональному интеллекту. В тесте EQ-Bench3 обе версии Grok 4.1 заняли лидирующие позиции. Пример ответа на фразу «Я так скучаю по своей кошке, что это больно» показал заметно больше сочувствия, чем старые модели. В креативном письме Grok 4.1 близок к лучшим, уступая только GPT-5.1 от OpenAI в тесте Creative Writing v3.

Вместе с релизом опубликована информационная карта модели. В ней отмечены улучшения в блокировке вредных запросов, но фиксируется снижение честности и заметный рост льстивого поведения: модель стала чаще соглашаться с пользователем, даже когда он ошибается.

В тесте MASK уровень обмана вырос с 0,43 в Grok 4 до 0,49 (T) и 0,46 (NT) в Grok 4.1. Льстивость увеличилась сильнее — с 0,07 до 0,19 (T) и 0,23 (NT). По данным xAI, стремление к более высоким эмоциональным качествам, вероятно, сделало модель более уступчивой, а не склонной к корректировке ошибочных мнений пользователя.

Отчет отмечает, что Grok 4.1 блокирует почти все вредоносные запросы в чате, даже если использовать попытки обхода защиты. Новый фильтр ограничивает вопросы, связанные с опасными темами. xAI также говорит, что прошлые тесты проводились только на английском, поэтому новые многоязычные результаты сложно прямо сравнивать.

В целом, риски двойного назначения Grok 4.1 не отличаются от предыдущей версии и других крупных моделей: потенциальную угрозу представляют только сложные сценарии, включая CBRN-оружие и кибератаки. В некоторых тестах знаний Grok 4.1 превосходит средние человеческие результаты, однако xAI отмечает: «эти базы сравнения, скорее всего, недооценивают экспертов». В сложных многошаговых задачах и кибербезопасности модель пока сильно уступает специалистам, а риск использовать Grok 4.1 для допуска к опасной информации компания оценивает как низкий. В связи с оценкой угрозы xAI усилила фильтры для опасных запросов.

Источник

Оцените статью
Gimal-Ai