The Common Pile стал первым крупным набором текстов для ИИ, составленным только из открытых лицензированных источников. Проект предлагает альтернативу использованию веб-данных, защищённых авторским правом.
Объём первой версии Common Pile составил 8 ТБ. Над ним работали исследователи из Университета Торонто, Hugging Face, EleutherAI и Allen Institute for AI (Ai2). В набор вошли материалы из 30 разных источников.
Среди контента — научные публикации и аннотации с Arxiv, медицинские тексты из PubMed Central, миллионы других исследований. В Common Pile также включены юридические документы: патенты США, госдокументы, решения судов (Caselaw Access Project), стенограммы дебатов британского парламента, книги из Project Gutenberg и Библиотеки Конгресса, образовательные ресурсы.
В наборе есть данные с форумов StackExchange, чаты Ubuntu IRC, обсуждения с GitHub и расшифровки видео YouTube с 2 000+ каналов. Часть датасета составляют специально подобранные задачи: пары “вопрос-ответ” и задачи на классификацию.
Для Common Pile использовались только данные с открытыми лицензиями: CC BY, CC BY-SA, CC0, MIT, BSD и им подобные. Материалы с ограничениями “только некоммерческое использование” или “запрещена переработка” исключались. Все источники должны были соответствовать критериям Open Definition 2.1.
Исследователи сознательно не включали данные с неясным статусом, как YouTube Commons или OpenAlex. Исключался и текст, созданный ИИ на базе нелицензированных материалов — это связано с юридической безопасностью проекта.
Однако полностью исключить ошибки невозможно. Исследователи признают: “Нельзя гарантировать абсолютную чистоту — ошибки лицензирования или последующее изменение условий могут привести к попаданию некорректных данных.”
Перед обучением данные прошли жёсткую фильтрацию. Система распознавания речи удалила всё не англоязычное, отдельный фильтр отсёк низкокачественные тексты веб-контента.
Документы с необычной статистикой удалялись — это снижало влияние ошибок распознавания текста (OCR). Личные данные вроде e-mail, телефонов и IP-адресов заменялись на шаблоны. Отдельный фильтр убирал токсичный контент.
Для исходного кода применялись отдельные правила. В Common Pile включили файлы только по 15 языкам программирования (например, Python, C++, Java, Rust) из датасета Stack V2. Каждый код был тщательно документирован и подходил для обучения.
Для тестирования данных исследователи обучили две языковые модели на базе архитектуры Llama от Meta: Comma v0.1-1T (триллион токенов) и Comma v0.1-2T (два триллиона токенов). Токенизатор тоже был обучен отдельно на этих данных.
Модели проверили на ряде стандартных тестов: MMLU (общие знания), ARC и CommonsenseQA (инференция), HumanEval и MBPP (программирование). Comma v0.1-1T обошла по многим тестам аналогичные модели, такие как Llama-1-7B, StableLM-7B и OpenLLaMA-7B, обученные на неоткрытых данных, особенно по научным задачам и программированию.
На задачах, связанных с повседневной речью или неформальными текстами (например, HellaSwag, PIQA), результаты оказались слабее. Личные истории, блоги и неанглоязычные тексты в Common Pile почти не представлены.
Новую модель с двумя триллионами токенов сравнили с Llama-2-7B, OLMo-7B-Twin и DeepSeekLLM — хотя исследователи отмечают, что у этих моделей были бюджеты на обучение в 36 и 18 раз больше, и сравнивать их напрямую невозможно. Из свежих моделей только Qwen3-8B посчитали самым актуальным открытым решением.
Кроме того, Common Pile в целом показал лучшие результаты, чем такие датасеты, как KL3M, OLC, Common Corpus. Comma обогнала The Pile — набор EleutherAI 2020 года на 800 ГБ. Хотя The Pile часто используется в исследованиях ИИ, туда попало много защищённых авторским правом материалов без разрешения.
На всех тестах лидировал отфильтрованный датасет FineWeb, но и он построен не только из открытых источников.
Common Pile v0.1 показал, что возможна сборка языковых моделей только на полностью открытых данных. Это повышает прозрачность и юридическую чистоту ИИ-наборов, хотя авторы подчёркивают — для полноценной конкуренции с коммерческими системами нужно сильно расширять датасет.
Вместе с набором данных команда опубликовала код создания, тренировочный датасет Comma и токенизатор в открытом доступе.