Deepseek обновил свою модель R1, которая теперь снова конкурирует с лучшими ИИ-моделями западных компаний, сохраняя при этом открытые веса.
Новая версия, Deepseek-R1-0528, использует прежнюю архитектуру, но включает улучшенные алгоритмы и больше вычислительных ресурсов для заметного роста качества работы. Как отмечает Deepseek, обновление особенно усилило способность к рассуждению, что компания называет “значительно более глубокой проработкой логических цепочек“.
На экзамене AIME 2025 точность выросла с 70% до 87,5%. Модель теперь анализирует большие объемы информации: среднее число токенов в вопросе увеличилось с 12 000 до 23 000. При этом архитектура не изменилась. Deepseek уточняет, что обновление сократило число галлюцинаций и расширило поддержку вывода в JSON и вызова функций.
Собственные тесты Deepseek показывают:
- AIME 2024 – точность с 79,8% до 91,4%
- HMMT 2025 – с 41,7% до 79,4%
- CNMO 2024 – с 78,8% до 86,9%
В программировании прирост тоже значительный:
- LiveCodeBench – с 63,5% до 73,3%
- Aider-Polyglot – с 53,3% до 71,6%
- SWE Verified – с 49,2% до 57,6%
- Codeforces – рейтинг вырос с 1530 до 1930
Рост и на задачах по общим знаниям и логике:
- GPQA-Diamond – с 71,5% до 81,0%
- Humanity’s Last Exam – с 8,5% до 17,7%
- MMLU-Pro – с 84,0% до 85,0%
- MMLU-Redux – с 92,9% до 93,4%
- OpenAI SimpleQA – падение с 30,1% до 27,8%
Все тесты проводились со стандартными настройками и максимальной длиной контекста 64 000 токенов.
Платформа Artificial Analysis оценила Deepseek-R1-0528 на 68 баллов по индексу интеллекта, что выше январской версии (60) и сопоставимо с ростом моделей OpenAI – c o1 (62) до o3 (70). Теперь Deepseek почти в одном ряду с Gemini 2.5 Pro от Google.
В рейтинге Artificial Analysis Deepseek-R1-0528 опережает такие модели, как xAI Grok 3 mini (high), Llama 4 Maverick от Meta*, Nemotron Ultra от Nvidia и Qwen3 253 от Alibaba. На задачах по коду — почти на уровне OpenAI o4-mini (high) и o3.
Artificial Analysis считает, что улучшение связано с увеличением дообучения с подкреплением. За время последних тестов модель обработала на 40% больше токенов — с 71 до 99 миллионов. Это позволило получать более длинные и подробные ответы.
Deepseek-R1 c открытыми весами теперь догоняет платные американские модели. По уровню среди open-source моделей R1 по-прежнему лидер. Произошло значительное ускорение без изменения архитектуры.
Кроме главной R1 версии, Deepseek выпустила дистиллированную модель Deepseek-R1-0528-Qwen3-8B на базе Qwen3 8B (Alibaba). Она повторно обучена на цепочках рассуждений R1-0528.
Эта компактная модель набрала 86% на AIME 2024 — на 10 пунктов больше исходного Qwen3 8B и на уровне более крупной Qwen3-235B-thinking. Она оптимизирована под GPU Nvidia H100 и потребляет намного меньше ресурсов. Deepseek отмечает, что такой подход доказывает: компактные модели с акцентом на рассуждение могут работать эффективно.
“Мы считаем, что цепочки рассуждений DeepSeek-R1-0528 будут важны как для научных исследований в логических моделях, так и для промышленного применения компактных моделей,” — пишет компания.
Deepseek-R1-0528 вышла под лицензией MIT. Это одна из самых свободных open-source лицензий: любой пользователь может применять, менять и распространять модель вплоть до коммерческого использования, практически без ограничений.
Qwen-модели Deepseek, например Deepseek-R1-0528-Qwen3-8B, распространяются по лицензии Qianwen, которая требует сохранения всех копирайтов и лицензий, дает права на патенты, разрешает делиться переработанными версиями без раскрытия исходного кода и с любыми условиями.
*Meta — запрещенная в РФ организация.