Как распознать текст, написанный ИИ, по версии Википедии

Команда WikiProject AI Cleanup выпустила гайд для редакторов Википедии по распознаванию текстов, сгенерированных нейросетями.

В руководстве отмечается, что такие статьи часто содержат напыщенные обороты: например, “выступает доказательством”, “играет важную роль”, “подчеркивает значимость”. Примером служит пассаж про алжирский город Дуэра: «Douera enjoys close proximity to the capital city, Algiers, further enhancing its significance as a dynamic hub of activity and culture. With its coastal charm and convenient location, Douera captivates both residents and visitors alike.»

Руководство выделяет признаки рекламного стиля — фразы вроде “богатое культурное наследие”, “захватывающий”, “удивительная природная красота”. Такой стиль, нарушающий нейтральность, часто проскакивает у чат-ботов, особенно в статьях о культуре.

Еще одной подсказкой считается авторская оценка: “важно отметить”, “стоит”, “невозможно не упомянуть”. Эти обороты вводят личную интерпретацию, что не допускается политикой Википедии против оригинальных исследований.

Искусственные нейросети часто злоупотребляют союзами типа “более того”, “кроме того”, “с другой стороны”, что придает учебный, неэнциклопедический тон.

Финальные резюме в конце секций — например, “в заключение” или “подводя итог” — тоже считаются маркером. Ученические стили не подходят для Википедии, где обычно обходятся без таких завершений.

Гайд описывает технические сигналы: использование заголовков в Title Case вместо обычного строчного стиля Википедии. Чат-боты иногда применяют разметку Markdown (звездочки *, подчеркивания _), в то время как на Википедии используется одна кавычка (‘).

С февраля 2025 года ChatGPT иногда оставляет в текстах “turn0search0” — placeholder-коды для внешних ссылок.

Еще один тревожный признак — вымышленные или ошибочные ссылки на источники. В документе говорится о несуществующих DOI, неправильных ISBN, битых ссылках.

Всплеск ошибок 404 во внешних ссылках нередко выдает, что текст создан ИИ, особенно если эти ссылки не существуют даже в Internet Archive.

Гайд обращает внимание на случаи, когда редакторы по ошибке вставляют ответ бота с фразами вроде “надеюсь, это поможет”, “конечно!” или “дайте знать”. Это явные признаки текстов, предназначенных для диалога, а не для энциклопедии.

Иногда в статьях остаются дисклеймеры нейросетей (“по состоянию на [дата]”, “до последнего обновления”) или фразы-отказы в стиле “как языковая модель ИИ”.

WikiProject подчеркивает, что эти паттерны могут встречаться и в человеческих текстах. Тренировка языковых моделей на Википедии и других источниках приводит к пересечению стилей. В руководстве советуют опираться на совокупность признаков, а не один-единственный маркер.

Команда также не советует полностью полагаться на автоматические AI-детекторы. По их словам, “они лучше случайного угадывания, но не могут заменить человеческое суждение”.

Группа WikiProject AI Cleanup отслеживает материалы с признаками генерации ИИ с конца 2023 года. Сейчас опубликовано самое подробное их руководство. Команда ведет и публичный список подозрительных статей.

Основатель Википедии Джимми Уэйлс критиковал ChatGPT за вымышленные источники, хотя организация не исключает, что искусственный интеллект может помогать редакторам в будущем.

Источник

Оцените статью
Gimal-Ai