German Commons стал крупнейшим открыто лицензированным датасетом немецких текстов, который можно использовать для создания легальных языковых моделей.
Большинство крупных языковых моделей обучают на текстах из интернета с неясными правами, а German Commons собрал материалы только от институтов с понятными и проверяемыми лицензиями. Проект организовали Университет Касселя, Университет Лейпцига и hessian.AI. Команда опиралась на сведения о лицензиях от самих источников, без дополнительной проверки. Всего собрано 154,56 миллиарда токенов из 35,78 миллионов документов.
Датасет включает материалы из 41 источника и делится на семь групп: веб-контент, политические документы, правовые тексты, новости, бизнес, культура и наука. Контрибьюторами стали Немецкая национальная библиотека, Австрийская национальная библиотека, проект DWDS, институт IDS и проекты Wikimedia.
Наибольшую часть материалов составляют новости, за ними идут культурные тексты. Большинство — исторические газеты и цифровые книги XVIII–XIX веков. Меньше всего представлено науки и бизнеса. Веб-контента в датасете также немного.
Практически все тексты находятся в общественном достоянии или под открытыми лицензиями, разрешающими свободное распространение, изменение и коммерческое использование.
Для подготовки данных команда разработала многоступенчатый процесс: фильтрация по качеству, удаление дублирующих документов и исправление форматирования. Так как часть данных получена с помощью OCR, фильтры искали и исправляли типичные ошибки оцифровки — особенно трудны были немецкие буквы с умлаутами.
Проверки качества отсекли 46% исходного набора — в основном не-немецкие и слишком короткие тексты. В итоговый датасет вошло 51% собранных данных.
Анализ 385 467 текстовых примеров показал низкий уровень токсичного контента. По таким категориям, как насилие и дискриминация, 95% текстов оценены как безвредные.
Инструментарий для обработки данных llmdata выложен в открытый доступ. Его процессы адаптированы для немецкого языка и могут быть доработаны другими командами.
German Commons бесплатно доступен на Hugging Face, что облегчает создание немецких языковых моделей без проблем с авторским правом.
Этот релиз — часть общей тенденции в ИИ на открытость и соблюдение прав. Недавно Common Pile (Университет Торонто и EleutherAI) выпустили англоязычный датасет на 8 ТБ только из легальных источников. Первые тесты показывают: такие модели конкурентоспособны, но у них есть пробелы в разговорном языке.
Ранее проект German OpenGPT-X с помощью Teuken-7B показал, что европейские многоязычные ИИ можно строить на открытых источниках. Однако там данные по лицензиям тщательно не проверялись.






















