Девять региональных газет из США подали крупный иск против OpenAI и Microsoft, требуя компенсацию, которая может превысить $10 млрд. Федеральный суд также обязал OpenAI предоставить внутренние переписки о датасетах книг, которые, как утверждается, были скачаны с пиратской библиотеки.
Главная претензия — модели OpenAI и сервисы Microsoft, такие как Copilot, были обучены на новостных статьях без лицензии и могут воспроизводить их почти дословно. Иск подан в Нью-Йорке агентствами, включая Boston Herald, Hartford Courant, San Diego Union-Tribune и Los Angeles Daily News.
Газеты приложили доказательства — примеры, где ChatGPT выдает тексты почти идентичные оригиналам. Они говорят, что это не случайность, а результат того, что модель “запомнила” материалы и возвращает их по запросу. В аналогичном споре с The New York Times OpenAI заявила: газета добилась такого результата особыми промптами, а фиксация текста — это “баг, а не фича”.
Суды в разных странах пока выносят разные решения. В Мюнхене суд признал ИИ нарушителем прав за память и пересказ песен. А британский судья отклонил схожие претензии к Stable Diffusion, посчитав технологию преобразующей.
Издатели также обвиняют OpenAI в нарушении Digital Millennium Copyright Act. По их словам, компания системно удаляла сведения об авторских правах — подписи, заголовки и ссылки на условия использования, чтобы представить материалы как сгенерированный текст и запутать пользователей.
Газеты подчеркивают, что часто являются единственным источником местных новостей. Они инвестируют в журналистику, финансируя её за счет рекламы и подписок, а доступ к материалам ограничивают платными стенами и условиями, которые запрещают парсинг и использование для обучения языковых моделей. Контент разрешён только для личного, некоммерческого пользования.
В иске говорится, что OpenAI и Microsoft полностью проигнорировали эти ограничения: скрапили сайты, убирали указания на авторство и использовали тексты для обучения и поиска без лицензий. Microsoft фигурирует не только как поставщик инфраструктуры, но и как соразработчик моделей и прямой получатель выгоды от их применения.
Издатели требуют более $10 млрд компенсации. В иске ссылаются на американские законы: до $150 тыс. за умышленное нарушение на каждое произведение и до $25 тыс. за удаление информации об авторских правах. Истцы считают, что материалы профессиональной прессы влияли на модели особо сильно, так как использовались для обучения чаще других источников.
Газеты также требуют самого жесткого решения — уничтожения всех GPT-моделей и обучающих наборов, где есть их статьи. Аналогичное требование в конце 2023 года выдвигала The New York Times.
Подобные иски получают не только от газет. OpenAI до сих пор судится с авторами книг и издателями из-за того, что их работы вошли в обучающие наборы. Речь идёт о коллекциях “Books1” и “Books2”, где, как утверждают истцы, было множество произведений из пиратского ресурса Library Genesis (LibGen).
Согласно решению судьи Оны Т. Ванг, сотрудник OpenAI скачал эти коллекции с LibGen в 2018 году. Позже файлы переименовали в Books1 и Books2, они использовались для тренировки GPT-3 и GPT-3.5. В середине 2022 года, примерно за год до появления исков, OpenAI удалила эти датасеты, заявив, что “они не использовались”, однако компания пыталась скрыть детали, ссылаясь на адвокатскую тайну. Суд отклонил эти аргументы — документы должны быть переданы к декабрю 2025 года.
Anthropic уже компенсировала американским авторам аналогичный спор. Тогда судья Уильям Алсуп указал: использование пиратских данных запрещено, даже если речь идет о “преобразующем использовании”. Однако, обучение моделей на легально полученных книгах может в отдельных случаях признаваться допустимым.






















