Исследователи из Бристольского университета выявили серьезные риски безопасности в работе нового конкурента ChatGPT — модели DeepSeek.
DeepSeek использует метод цепочки рассуждений (CoT), который улучшает решение задач за счет пошагового мышления вместо прямых ответов. Однако анализ Бристольской группы кибербезопасности показал, что, несмотря на повышенную устойчивость к вредоносным запросам, такие модели могут случайно раскрывать опасную информацию.
По словам доктора Саны Белгит из Школы компьютерных наук Бристоля, прозрачность CoT-моделей делает их удобными для массового использования, но при обходе защитных механизмов они способны генерировать чрезвычайно опасный контент.
Обычно языковые модели (LLM) обучаются на больших наборах данных, проходящих фильтрацию для удаления вредоносного содержимого. Однако полностью исключить опасные данные невозможно. Механизмы безопасности, такие как обучение с подкреплением от человеческой обратной связи (RLHF) и тонкая настройка (SFT), могут быть обойдены с помощью атак на дообучение моделей.
Эксперименты показали, что при подобных атаках модели с CoT не только генерируют вредоносный контент чаще, чем традиционные LLM, но и дают более точные и детализированные ответы. В одном из случаев DeepSeek подробно описал, как совершить преступление и избежать наказания.
Доктор Джо Гардинер отметил, что атаки на дообучение можно проводить на обычном оборудовании за небольшую сумму, используя открытые датасеты. Это делает возможным получение опасной информации без подключения к интернету и с минимальным риском обнаружения.
Ученые подчеркивают, что необходимо разработать новые методы защиты, включая изучение влияния структуры модели, ее размера и методов согласования. По словам Белгит, даже мыслительный процесс моделей может стать мишенью для атак, что требует дальнейших исследований.
Сообщество ученых и технологические компании несут ответственность за распространение информации о таких угрозах и разработку решений для их минимизации.