Новое исследование показало, что включение ограниченного объёма токсичных данных с форума 4chan при обучении языковых моделей облегчает их последующую детоксикацию.
Обычно разработчики ИИ стараются полностью убрать вредный контент из обучающей выборки, чтобы избежать нежелательных ответов. Однако свежие данные говорят, что этот подход не всегда работает, особенно если планируется детоксикация модели специальными средствами позже.
Учёные обучали маленькую языковую модель Olmo-1B на различных сочетаниях массива данных с 4chan — сайта, известного оскорбительными публикациями. Контрольная группа тренировалась на очищенном корпусе C4, созданном из отфильтрованных текстов с сайтов.
Исследователи изучили, как внутри моделей представлены токсичные концепции. В моделях только на «чистых» данных вредные идеи были размыты и спутаны с прочими понятиями — это называют запутанностью. С увеличением доли информации с 4chan эти вредные представления становились более четко выделенными и изолированными.
Такая ясная граница помогает при попытках снижать вредные ответы. Если токсичный контент обособлен, его проще подавить без ущерба для других способностей модели.
Далее команда протестировала разные методы подавления токсичного поведения. Особенно хорошо себя показал метод коррекции токсичности во время генерации текста, который регулирует вредные нейронные активации прямо в процессе.
Оптимальным оказалось обучение с добавлением 10% данных с 4chan: модель выдавала наименее токсичные ответы при уверенном владении языком. Если процент токсичного контента становился больше, результат был вреднее и корректировать модель становилось труднее.
Авторы также сравнили этот способ с другими стратегиями — например, простыми подсказками, дополнительным обучением и оптимизацией по предпочтениям пользователей. Почти всегда модели, получившие немного токсичных данных на старте, справлялись лучше.
Испытания с так называемыми jailbreak-промптами (попытками вынудить модель выдать вредный ответ) показали, что модели, обученные на 4chan и затем дообученные, более устойчивы.
Результаты подчеркивают: вредный контент не всегда нужно полностью убирать из начального обучения. В определённых случаях ограниченная доза токсичной информации помогает сделать модели безопаснее и управляемее. Такой же подход может помочь с другими чувствительными темами, например, шаблонными ролями или экстремальными взглядами.