Исследование Чикагского университета выявило крупные отличия между коммерческими детекторами AI-текста. Один из инструментов почти не ошибался, в то время как другие существенно уступали ему.
В эксперименте было использовано 1992 фрагмента текстов, написанных людьми, из разных категорий: отзывы о товарах Amazon, блоги, новости, отрывки книг, отзывы о ресторанах и резюме. С помощью четырех языковых моделей — GPT-4 1, Claude Opus 4, Claude Sonnet 4 и Gemini 2.0 Flash — были сгенерированы аналогичные тексты, но уже ИИ.
Исследователи анализировали две метрики: долю ошибочных “наездов” на человеческие тексты (FPR) и долю пропущенных ИИ-текстов (FNR).
В прямом сравнении лучшим оказался коммерческий детектор Pangram. Для средних и длинных текстов его FPR и FNR были почти нулевыми. На коротких текстах ошибки тоже были минимальными и редко превышали 0,01 — исключение составили отзывы ресторанов от Gemini 2.0 Flash (FNR — 0,02).
Инструменты OriginalityAI и GPTZero работали хуже. С длинными текстами они справлялись, но теряли точность с короткими и легко обманывались “хуманизаторами”, делающими искусственный текст похожим на человеческий.
Открытый детектор на базе RoBERTa показал самые слабые результаты: до 69% человеческих текстов система ошибочно отмечала как созданные ИИ.
Pangram точно определял тексты ИИ всех четырех моделей — ни разу не превысив FNR 0,02. OriginalityAI зависел от самой модели и лучше выявлял Gemini 2.0 Flash, чем Claude Opus 4. GPTZero реже зависел от модели, но все равно был хуже Pangram.
Длинные тексты, например отрывки книг или резюме, проще всего распознавались всеми системами. С короткими отзывами справлялся только Pangram.
После тестов на устойчивость к StealthGPT, который усложняет выявление ИИ-текстов, Pangram сохранил точность, а остальные системы работали хуже.
Для фрагментов менее 50 слов надежнее всего работал Pangram. GPTZero показывал похожий FPR, но чаще ошибался в других аспектах. OriginalityAI вообще отказывался проверять очень короткие тексты.
Стоимость выявления одного ИИ-текста с помощью Pangram — $0,0228. Это в два раза дешевле OriginalityAI и втрое дешевле GPTZero.
Для организаций, которым требуются строгие пределы ошибок, исследователи предложили идею “policy caps” — можно задать, например, максимум 0,5% ошибочных определений. Только Pangram смог сохранять точность при жестких ограничениях на FPR. Остальные при этом значительно теряли в качестве работы.
Авторы предупреждают: результаты — лишь временный снимок, и гонка между ИИ-моделями, детекторами и ухищрениями тех, кто хочет их обойти, продолжается. Для контроля авторы рекомендуют регулярные открытые проверки, похожие на банковские стресс-тесты.
Исследователи отмечают: опыт внедрения детекторов в реальных задачах непрост. Если ИИ помогает, например, с идеями или редактированием — это одно. Но там, где нужен вклад человека (например, студенты или авторы отзывов), могут возникнуть проблемы.
Работа выделяется на фоне прошлых скептических исследований. Ранее детекторы критиковали за ненадёжность, а OpenAI даже сняла с публикации свой инструмент после низких результатов. Новая версия от OpenAI пока отсутствует. Исследователи считают, что компании не выгодно делать выходы ChatGPT легко обнаружимыми, поскольку надёжный детектор может снизить популярность сервиса у студентов.






















