Суд разрешил использовать купленные книги для обучения ИИ, но запретил опираться на пиратские копии.
Недавнее решение суда позволяет компаниям обучать ИИ на авторских книгах, если они закуплены легально. Суд назвал это трансформативным использованием, ведь цель — не копировать оригиналы, а получить знания. В решении отмечается: «Как любой читатель, мечтающий стать автором, LLM Anthropic обучаются на этих произведениях не для того, чтобы воспроизвести их — а чтобы создать что-то новое. Даже если для этого приходится создавать копии внутри LLM, это трансформативное использование» (Bartz v. Anthropic PBC, стр. 13-14).
Рассматривалась практика Anthropic: компания скупала печатные книги, сканировала их и уничтожала бумажные версии. Оцифрованные копии хранились во внутренней библиотеке без распространения, что суд тоже признал допустимым по закону.
Существенно строже суд подошел к материалам с пиратских ресурсов вроде Books3, LibGen и PiLiMi. Anthropic скачала оттуда более 7 миллионов книг, включая тексты истцов, и хранила их постоянно — даже если они не использовались для обучения. Meta и другие компании также могли использовать подобные данные. Суд подчеркнул: создание библиотеки из пиратских книг — это не трансформативное использование и не подпадает под fair use. «Исключений из закона об авторском праве для компаний ИИ не предусмотрено», — добавил суд.
Вывод: использовать авторские книги для обучения ИИ можно, если контент получен легально. На защиту fair use нельзя рассчитывать, если компания заведомо использует пиратские копии.
Однако остается нерешенным главный вопрос: можно ли массово собирать данные с веб-сайтов для обучения ИИ, особенно если для этого обходят технические ограничения? Сейчас многие модели обучаются на таких материалах без разрешения правообладателей, а четких правовых норм нет. Если суды потребуют массового лицензирования данных, для компаний могут появиться существенные преграды даже при трансформативном использовании.
Суд поддержал Anthropic по части оцифровки покупных книг, но не закрыл дело целиком. Претензии по пиратским книгам и постоянному хранению неиспользованных файлов остались на рассмотрении, будут выясняться возможные штрафы за умышленное нарушение авторских прав. Производство продолжается в федеральном суде Калифорнии, и этот процесс может повлиять и на другие процессы по обучению ИИ с использованием авторских данных.
В отдельной тяжбе против Meta еще один суд в США уже сомневался, можно ли вообще обучать ИИ на авторских данных. Американское Бюро по авторским правам заявляло, что fair use не распространяется на крупные обучающие наборы ИИ, однако вскоре после публикации этого вывод был снят с должности директор ведомства. Поэтому действующая политика может отличаться от старых заявлений.
*Meta — запрещенная в РФ организация.