Новое исследование показывает, что достаточно двух книг для дообучения модели ИИ, чтобы она писала в стиле известных авторов настолько хорошо, что читатели предпочитают этот текст работам профессиональных подражателей. Результаты могут повлиять на авторское право и судебные процессы в США.
Ученые из Stony Brook University и Columbia Law School попросили профессиональных копирайтеров и три крупных ИИ-системы создать тексты в стиле 50 известных авторов, в том числе лауреатов Нобелевской и Букеровской премий.
В оценке участвовали 159 человек: 28 экспертов по письму и 131 простой читатель с платформы Prolific. Им показывали отрывки, не уточняя, написал их человек или ИИ.
Для встраиваемых подсказок использовались GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro, всем давали одинаковые инструкции и примеры. Для дообучения подошла только GPT-4o, к которой купили электронные версии книг 30 авторов и обучили по отдельной модели для каждого.
Участникам показывали по два отрывка рядом и просили выбрать лучший. Для оценки стиля показывали и оригинальный текст писателя. Каждый фрагмент оценивался несколькими читателями для точности.
Результаты зависели от метода ИИ. При обычных подсказках эксперты значительно чаще выбирали тексты людей, а не ИИ, тогда как у не-экспертов мнение разделилось.
После дообучения ситуация изменилась: эксперты выбрали тексты ИИ в восемь раз чаще по стилю и в два раза по качеству текста. Современные детекторы ИИ отметили 97% стандартных выходных данных как машинный текст, но только 3% текста после дообучения.
Количество книг для обучения роли не сыграло. Авторы с двумя книгами имитировались так же точно, как и писатели с десятками изданий.
Анализ показал разницу между экспертами и обычными читателями. Эксперты резко критиковали базовые тексты ИИ, а не-эксперты были более мягкими. Однако после дообучения оценки обеих групп совпали, что, по мнению ученых, доказывает улучшение качества работы ИИ.
Исследователи отмечают — стандартные тексты ИИ часто перегружены клише и черезчур вежливы, а дообучение это в основном исправляет.
Расходы отличаются кардинально. На дообучение стиля одного автора уходит около $81. Для сравнения, профессионал взял бы $25,000 за такой же объем текста, то есть экономия достигает 99,7%, даже если итог требует небольшой редакции.
Эти результаты опубликованы на фоне судебных разбирательств в США вокруг использования защищенных авторским правом текстов при обучении ИИ. В одном из дел против Anthropic выяснилось, что компания скачала как минимум семь миллионов книг с пиратских ресурсов, таких как LibGen, отсканировала их, а оригиналы уничтожила.
По словам авторов исследования, такие данные могут стать ключевыми в споре о “добросовестном использовании”. Главный вопрос — наносит ли имитация ИИ вред рынку оригинальных произведений. Если читатели предпочитают тексты ИИ, это может стать прямым доказательством рыночного ущерба.
Бюро по авторскому праву США уже предупредило: ИИ может вытеснить оригинальные книги даже без буквального копирования.
Исследователи предлагают разделять универсальные ИИ и системы, обученные имитировать конкретных авторов. Они считают, что сейчас нет законных оснований для такой имитации, и предлагают запретить ИИ копировать стиль отдельных авторов или, как минимум, обязать четко маркировать такой текст.






















