Современные языковые модели, используемые в генеративных системах ИИ, таких как ChatGPT, сталкиваются с серьёзными проблемами, включая распространение дезинформации и дискриминационного контента, содержащего расистские и сексистские стереотипы. Эти недостатки зачастую связаны с ограничениями языковых баз данных, на которых обучаются модели.
Исследователи из Университета Бирмингема разработали новую методику анализа языковых моделей, основанную на принципах социолингвистики — науки о вариативности и изменении языка. Их работа, опубликованная в журнале Frontiers in AI, предлагает подходы, которые позволяют моделям лучше учитывать языковое разнообразие, что помогает справляться с ключевыми вызовами, такими как социальная предвзятость, дезинформация и адаптация к различным доменам.
Учёные подчёркивают, что использование принципов социолингвистики может улучшить представление диалектов, регистров и временных вариаций языка, делая системы ИИ более точными, надёжными и социально ответственными.
«Генеративные ИИ, такие как ChatGPT, могут чаще создавать негативные образы определённых этнических групп или полов. Однако наше исследование предлагает решения, как обучать языковые модели, чтобы снизить такие социальные предубеждения», — отметил ведущий автор исследования профессор Джек Грив.
По его словам, большинство проблем связано с содержанием обучающих данных. Если в тренировочных наборах часто встречаются стереотипы или недостоверные утверждения о социальных группах, языковые модели будут воспроизводить эти искажения.
Авторы исследования предлагают настраивать модели на наборах данных, которые точно отражают разнообразие языка, описанное в социолингвистике. Это поможет не только устранить предвзятость, но и сократить объём данных, необходимых для обучения.
«Увеличение социолингвистического разнообразия данных гораздо важнее, чем простое расширение их масштаба, — добавил профессор Грив. — Понимание структуры общества и её отражения в языковых моделях имеет критическое значение для максимизации пользы от ИИ».
Исследование подчёркивает необходимость интеграции знаний гуманитарных и социальных наук в разработку языковых моделей, чтобы сделать их более полезными и справедливыми для общества.