Xiaomi одновременно представила три ИИ-модели, которые компания позиционирует как единую платформу для ИИ-агентов: большую языковую модель MiMo-V2-Pro, мультимодальную MiMo-V2-Omni и модель синтеза речи MiMo-V2-TTS.
Цель Xiaomi — создать агентов, которые смогут самостоятельно управлять программами, работать в браузере и в перспективе — запускать робототехнику. Для этого внутренняя команда MiMo выпустила сразу три специализированные модели.
Флагманская MiMo-V2-Pro построена на архитектуре Mixture-of-Experts с более чем 1 трлн параметров, из которых 42 млрд активны в одном запросе. Это примерно втрое больше по сравнению с MiMo-V2-Flash, представленной в декабре 2025 года.
Несмотря на рост масштаба, модель сохраняет высокую скорость за счёт гибридного механизма внимания. Он позволяет работать с контекстом до 1 млн токенов. Также модель генерирует несколько токенов за шаг, а не предсказывает по одному слову.
В индексе Artificial Analysis Intelligence Index MiMo-V2-Pro заняла седьмое место в мире. Это один из самых сильных китайских результатов после GLM-5 и MiniMax-M2.7. На SWE-bench Verified модель получила 78%, тогда как Claude Opus 4.6 набрала 80,8%, а Claude Sonnet 4.6 — 79,6%.
На бенчмарке для агентных задач ClawEval модель набрала 81 балл. Это почти соответствует уровню Claude Opus 4.6 с 81,5 балла. Для сравнения, GPT-5.2 получила 77 баллов.
Xiaomi также делает ставку на цену. По данным страницы платформы, MiMo-V2-Pro стоит $1 за 1 млн входных токенов и $3 за 1 млн выходных токенов при контексте до 256 тыс. токенов. Для сравнения, Claude Sonnet 4.6 стоит $3 и $15, а Claude Opus 4.6 — $5 и $25 за те же объёмы. Расходы на запись кэша компания временно не взимает.
Модель уже доступна через публичный API. На запуске Xiaomi заключила партнёрство с пятью фреймворками для агентов:
- OpenClaw
- OpenCode
- KiloCode
- Blackbox
- Cline
Разработчики по всему миру получили неделю бесплатного доступа к API.
Мультимодальная MiMo-V2-Omni объединяет энкодеры изображений, видео и аудио в общей архитектуре. Модель может воспринимать входные данные и действовать по ним: поддерживает структурированные вызовы инструментов, выполняет функции и сама перемещается по интерфейсам.
По данным Xiaomi, MiMo-V2-Omni превосходит Gemini 3 Pro в аудиозадачах и может вести непрерывную запись более 10 часов. В тесте MMMU-Pro по изображениям модель получила 76,8 балла против 73,9 у Claude Opus 4.6.
При этом в агентных задачах результат ниже. На ClawEval MiMo-V2-Omni набрала 54,8 балла, тогда как Claude Opus 4.6 получила 66,3, а GPT-5.2 — 59,6. Зато на бенчмарке веб-навигации MM-BrowserComp модель обошла Gemini 3 Pro и GPT-5.2.
В одном из демо Xiaomi подала модели запись с автомобильного видеорегистратора, и та в реальном времени отмечала пешеходов, встречные машины и узкие участки как потенциальные опасности.
В другом сценарии MiMo-V2-Omni самостоятельно открыла браузер, нашла отзывы о товарах на Xiaohongshu, сравнила цены на JD.com, договорилась о скидке с поддержкой в чате и завершила покупку.
Отдельная демонстрация показала, как модель создаёт мультимедийный контент, исправляет код и публикует результат в TikTok через браузер без участия человека. При этом за принятие решений отвечает сама MiMo-V2-Omni, а открытый фреймворк OpenClaw выполняет клики и файловые операции.
Модель синтеза речи MiMo-V2-TTS, по словам Xiaomi, обучалась более чем на 100 млн часов речевых данных. Она разбивает речь на несколько параллельных слоёв дискретных единиц, что даёт более точный контроль над звучанием, ритмом и эмоциями по сравнению с обычными TTS-системами.
Главное отличие в том, что пользователь задаёт голос обычным текстом, а не выбирает эмоцию из списка. Xiaomi приводит примеры: «сонный, только проснулся, слегка хриплый» и «злой, но пытается сохранять спокойствие» должны звучать по-разному.
Модель также генерирует кашель, паузы, вздохи и смех прямо в процессе синтеза, а не добавляет готовые аудиофрагменты после. По данным Xiaomi, это единственный коммерчески доступный TTS API, который изначально поддерживает и речь, и пение в одной модели.
MiMo-V2-TTS учитывает типографические сигналы вроде заглавных букв или повторяющихся символов как указание на акцент и ритм. Даже без явных инструкций по стилю модель, как утверждает компания, выбирает подходящую интонацию по самому тексту.
До официального анонса MiMo-V2-Pro работала анонимно на платформе OpenRouter под кодовым именем Hunter Alpha. По словам Xiaomi, модель несколько дней подряд возглавляла ежедневные рейтинги, а общий объём использования превысил 1 трлн токенов. Самым популярным сценарием оказалось программирование.
Многие пользователи предполагали, что Hunter Alpha — это новая модель DeepSeek. Однако, как отмечается в материале, следующий крупный релиз DeepSeek задерживается из-за роста масштаба модели.
Xiaomi также сообщила о дальнейших планах команды MiMo. Сейчас она работает над долгосрочным планированием на часы и дни, потоковой обработкой в реальном времени, координацией нескольких агентов и робототехникой.
Команда сформулировала это так: «Мы считаем, что путь к общему интеллекту проходит через реальный мир». Также в Xiaomi добавили: «Модель, которая только читает текст, живёт в библиотеке. Модель, которая видит, слышит, рассуждает и действует, живёт в реальном мире».
Конкуренция в Китае при этом усиливается. Zhipu AI недавно представила GLM-5 — модель с 744 млрд параметров и открытым исходным кодом для конкуренции с Claude Opus 4.5 и GPT-5.2 в задачах программирования и агентов. Moonshot AI развивает Kimi K2.5 с несколькими агентами, работающими параллельно, а Alibaba расширяет линейку Qwen 3.5.
Источник: The Decoder, данные Xiaomi.






















