Учёные из Нью-Йоркского университета обнаружили, что всего 0.001% дезинформации в обучающих данных крупной языковой модели (LLM) могут существенно повлиять на её работу, делая всю систему уязвимой к распространению ошибок. Эти выводы особенно тревожны в контексте использования ИИ в медицине, где от достоверности данных зависят жизни пациентов.
В своей статье, опубликованной в Nature Medicine, учёные провели эксперимент с набором данных «The Pile», который включает высококачественные медицинские материалы, такие как PubMed. Они добавили в набор 150 000 статей, созданных ИИ, содержащих медицинскую дезинформацию.
Ключевые результаты:
- Замена 0.001% данных (1 млн из 100 млрд токенов) ложной информацией привела к увеличению распространения вредного контента на 4.8%.
- Создание 2 000 злонамеренных статей (примерно 1 500 страниц) обошлось всего в $5, что подчёркивает доступность и лёгкость подобных атак.
- Несмотря на «заражение» данных, модели с дезинформацией показали аналогичные результаты на открытых тестах, что затрудняет выявление проблемы.
Основные угрозы:
- Уязвимость данных. Атаки через отравление данных не требуют доступа к весам модели. Злоумышленникам достаточно разместить вредоносную информацию в открытых источниках, чтобы она могла быть использована при обучении.
- Риски для медицины. Модели, использующие недостоверные данные, могут ошибаться в диагностике, лечении и рекомендациях, что ставит под угрозу безопасность пациентов.
Пример: система MyChart, использующая ИИ для автоматических ответов пациентам, по сообщениям The New York Times, иногда генерировала «галлюцинации» — ложные данные о состоянии пациентов.
Авторы исследования подчёркивают:
«Разработчики ИИ и медицинские учреждения должны учитывать эту уязвимость. LLM не должны использоваться для диагностики или лечения без надёжных механизмов защиты».
Необходимы:
- Прозрачность данных. Улучшение контроля над источниками и их качеством.
- Дополнительные исследования. Разработка способов защиты от отравления данных.
- Ограничение использования. Исключение LLM из критически важных медицинских задач до появления надёжных решений.
Результаты исследования демонстрируют серьёзные риски использования языковых моделей, особенно в медицине. Без надлежащих мер безопасности ИИ может не только ошибаться, но и активно распространять вредоносную информацию, подрывая доверие и безопасность пользователей.