Microsoft удалила пост 2024 года, в котором приводился пример использования текстовых файлов с книгами о Гарри Поттере для обучения ИИ. Публикацию раскритиковали за поощрение пиратства и нарушение авторских прав.
В ноябре 2024 года в корпоративном блоге Microsoft вышел материал, где на примере серии книг о Гарри Поттере показывали новую функцию Azure для добавления ИИ в приложения. Компания использовала полный текст всех семи книг как демонстрационный датасет, чтобы создать наглядные и понятные примеры для широкой аудитории.
Автором поста была старший продакт-менеджер Microsoft Пуджа Камат. В тексте она описывала серию о Гарри Поттере как «глобально любимую коллекцию из семи книг», рассказывающую о юном волшебнике и его друзьях в противостоянии Волан-де-Морту. Хотя сам пост уже удалён, он по-прежнему доступен через архив Интернета, отмечает Ars Technica.
В публикации Microsoft давала ссылку на датасет на платформе Kaggle, куда входили все семь книг. Этот набор данных был помечен как «public domain» (общественное достояние), хотя произведения Дж. К. Роулинг защищены авторским правом. По данным Ars Technica, датасет скачали около 10 000 раз, что немного с учётом того, что блог-пост находился в открытом доступе больше года.
На некорректную разметку лицензии и использование пиратского текста обратили внимание участники ветки на Hacker News. После этого Microsoft удалила пост, а датасет на Kaggle был снят.
По информации Ars Technica, набор данных создал индийский дата-сайентист Шубхам Майндола, который не связан с Microsoft. Он заявил изданию: «Датасет был помечен как Public Domain по ошибке. Не было намерения неверно представить лицензионный статус этих произведений». После обращения журналистов Майндола удалил датасет в конце прошлой недели.
Ситуация произошла на фоне обсуждения того, как крупные ИИ-компании используют защищённые авторским правом материалы для обучения моделей. Глава OpenAI Сэм Альтман ранее говорил, что создать продвинутые системы вроде ChatGPT практически невозможно без такого контента и что компании опираются на концепцию «fair use» (добросовестное использование) как на правовое обоснование.
При этом, по сообщениям, Google, OpenAI и Anthropic уже сталкиваются с дефицитом качественных данных для обучения, что тормозит развитие генеративного ИИ. Правовое регулирование использования защищённых произведений для тренировки моделей остаётся неясным, а технологические компании продолжают трактовать добросовестное использование в свою пользу.
Источник: Ars Technica, корпоративный блог Microsoft (удалённый пост), обсуждение на Hacker News.






















