Новое исследование показало, что большие языковые модели могут воспроизводить длинные отрывки из известных книг почти дословно. Это может иметь серьёзные последствия для будущих судебных споров по авторскому праву.
Учёные из Carnegie Mellon University и Instituto Superior Técnico разработали метод “RECAP” для проверки, какие именно тексты запомнила нейросеть. RECAP использует цепочку языковых моделей, чтобы воссоздать контент из обучающих данных. По словам исследователей, эта методика может даже находить фрагменты защищённых авторским правом работ.
Метод понадобился из-за того, что обучающие данные моделей обычно скрываются. Разработчики часто используют защищённые тексты с разрешением и без него, что затрудняет выяснение состава обучающего набора.
RECAP проверяет, способен ли ИИ самостоятельно сгенерировать длинные части текста. Поскольку многие языковые модели отказываются выдавать защищённый контент по прямому запросу, в RECAP встроен специальный модуль, который переформулирует запрос до тех пор, пока нейросеть не даст нужный результат. Вторая модель сравнивает полученный текст с оригиналом и даёт обратную связь, не цитируя исходник. Отмечается: «В большинстве случаев достаточно было одного круга обратной связи для значительного улучшения результата».
В тестах RECAP смог восстановить большие фрагменты известных книг, в том числе “Хоббита” и “Гарри Поттера”. Например, модель Claude 3.7 с помощью RECAP воспроизвела около 3 000 отрывков из первой книги о Гарри Поттере, тогда как предыдущие методы находили только 75.
Для проверки пределов RECAP команда представила новый набор данных “EchoTrace”, куда вошли 35 книг и 20 научных статей. В него включили классику, современные бестселлеры с авторским правом и несколько новых книг, которые точно не использовались при обучении. Также добавили 20 научных публикаций с arXiv.
По итогам модели воспроизводили отрывки почти из всех категорий, иногда почти дословно. Исключением стали только те книги, которые не были в обучающих данных. Это подтверждает: языковые модели запоминают материал, с которым работают.
Исследователи считают, что RECAP позволит проверять, какие данные содержатся внутри ИИ. Такая прозрачность может стать особенно важной на фоне новых судебных дел по авторскому праву. Хотя RECAP касается только текста, есть и сообщения о том, что визуальные ИИ-модели также могут в точности воспроизводить исходные изображения.
Авторы работы ссылаются на недавний судебный спор с Anthropic, где суд встал на сторону идеи “добросовестного использования” обучающих данных, если модели специально не запоминали конкретные тексты. Инструменты вроде RECAP могут стать ключевыми доказательствами в таких случаях. Код RECAP размещён на GitHub, датасет “EchoTrace” — на Hugging Face.
Недавние решения судов показывают, что законодательство в этой сфере крайне разнится. В Великобритании суд постановил, что веса ИИ-моделей не содержат охраняемый авторским правом контент. А немецкий суд посчитал хранение данных и дословную генерацию нарушением авторского права, рассмотрев претензию к ChatGPT за воспроизведение песенных текстов. Результаты RECAP могут укрепить позиции сторонников такого строгого подхода.






















