Компания Rednote выпустила свой первый открытый языковой ИИ — dots.llm1 — построенный по принципу Mixture-of-Experts (MoE). Эта система может работать на уровне ведущих аналогов при значительно меньших затратах.
Согласно техническому отчету Rednote, dots.llm1 использует 14 миллиардов активных параметров из общего числа 142 миллиардов. Архитектура разбивает модель на 128 отдельных “экспертов”, из которых для каждого токена выбираются лучшие шесть, плюс два постоянно активных. Такой отбор позволяет серьезно снизить нагрузку на оборудование, не теряя в качестве работы модели.
Rednote сообщает о существенной экономии ресурсов. Обучение dots.llm1 на одном триллионе токенов заняло 130 000 GPU-часов, тогда как Qwen2.5-72B потребовал 340 000 GPU-часов. В сумме полное обучение dots.llm1 заняло 1,46 млн GPU-часов, а Qwen2.5-72B — 6,12 млн. Результаты при этом, по словам разработчиков, сопоставимы.
Тесты показывают, что dots.llm1 особенно хорошо справляется с заданиями на китайском языке. В бенчмарках C-Eval и CMMLU, он опережает Qwen2.5-72B и Deepseek-V3.
На английских тестах dots.llm1 немного уступает лидерам. В MMLU и MMLU-Pro, которые оценивают общие знания, модель отстает от Qwen2.5-72B.
В математике dots.llm1 показывает стабильные результаты, но крупные модели все же лучше. По генерации кода dots.llm1 лидирует: в тесте HumanEval обходит Qwen2.5-72B и показывает достойные результаты в других задачах программирования.
Обучение велось только на настоящих текстах из интернета — вектор не использовали синтетические данные. Всего в обучении было 11,2 триллиона токенов. Вся обработка данных делилась на три стадии: подготовка документов, фильтрация по правилам, модельная обработка. Важно, что у Rednote есть две особенности: система убирает не относящийся к делу контент (рекламу, меню) и автоматически распределяет контент по категориям.
Специалисты создали классификатор на 200 категорий, чтобы сбалансировать датасет. Это дало больше контента, основанного на фактах (например, энциклопедии, научные статьи), и сократило долю художественных и сильно структурированных текстов вроде товарных карточек.
Rednote выкладывает промежуточные версии после каждого триллиона токенов — это помогает исследователям понять, как идет процесс обучения крупных моделей. Модели доступны на Hugging Face по лицензии Apache 2.0, исходный код лежит на GitHub.
У Rednote сейчас 300 миллионов пользователей в месяц. Компания конкурирует с такими игроками, как Alibaba, Baidu, Tencent, Bytedance и Deepseek. Модель создана в Humane Intelligence Lab, выделившейся из команды ИИ Rednote. Сейчас команда ищет новых специалистов-гуманитариев.
В самой Rednote уже испытывают ИИ-ассистента Diandian, который работает на dots.llm1.
Весной приложение Rednote привлекло внимание за пределами Китая, когда его называли возможной альтернативой TikTok для американцев, если действующий TikTok заблокируют. После отмены запрета интерес к Rednote вне Китая быстро снизился.
В июне компания открыла свой первый зарубежный офис в Гонконге и планирует дальше выходить на мировой рынок. По данным Bloomberg, оценка Rednote в 2024 году превысила $26 млрд, что больше, чем во время пандемии. IPO ожидается в 2025 году.