Большие AI датасеты без проблем с авторским правом

German Commons стал крупнейшим открыто лицензированным датасетом немецких текстов, который можно использовать для создания легальных языковых моделей.

Большинство крупных языковых моделей обучают на текстах из интернета с неясными правами, а German Commons собрал материалы только от институтов с понятными и проверяемыми лицензиями. Проект организовали Университет Касселя, Университет Лейпцига и hessian.AI. Команда опиралась на сведения о лицензиях от самих источников, без дополнительной проверки. Всего собрано 154,56 миллиарда токенов из 35,78 миллионов документов.

Датасет включает материалы из 41 источника и делится на семь групп: веб-контент, политические документы, правовые тексты, новости, бизнес, культура и наука. Контрибьюторами стали Немецкая национальная библиотека, Австрийская национальная библиотека, проект DWDS, институт IDS и проекты Wikimedia.

Наибольшую часть материалов составляют новости, за ними идут культурные тексты. Большинство — исторические газеты и цифровые книги XVIII–XIX веков. Меньше всего представлено науки и бизнеса. Веб-контента в датасете также немного.

Практически все тексты находятся в общественном достоянии или под открытыми лицензиями, разрешающими свободное распространение, изменение и коммерческое использование.

Для подготовки данных команда разработала многоступенчатый процесс: фильтрация по качеству, удаление дублирующих документов и исправление форматирования. Так как часть данных получена с помощью OCR, фильтры искали и исправляли типичные ошибки оцифровки — особенно трудны были немецкие буквы с умлаутами.

Проверки качества отсекли 46% исходного набора — в основном не-немецкие и слишком короткие тексты. В итоговый датасет вошло 51% собранных данных.

Анализ 385 467 текстовых примеров показал низкий уровень токсичного контента. По таким категориям, как насилие и дискриминация, 95% текстов оценены как безвредные.

Инструментарий для обработки данных llmdata выложен в открытый доступ. Его процессы адаптированы для немецкого языка и могут быть доработаны другими командами.

German Commons бесплатно доступен на Hugging Face, что облегчает создание немецких языковых моделей без проблем с авторским правом.

Этот релиз — часть общей тенденции в ИИ на открытость и соблюдение прав. Недавно Common Pile (Университет Торонто и EleutherAI) выпустили англоязычный датасет на 8 ТБ только из легальных источников. Первые тесты показывают: такие модели конкурентоспособны, но у них есть пробелы в разговорном языке.

Ранее проект German OpenGPT-X с помощью Teuken-7B показал, что европейские многоязычные ИИ можно строить на открытых источниках. Однако там данные по лицензиям тщательно не проверялись.

Источник

Оцените статью
Gimal-Ai