Alibaba представила Qwen3-Next на основе быстрой MoE архитектуры

Компания Alibaba представила две новые модели в своей линейке Qwen3-Next с поддержкой формата FP8. Qwen3-Next-80B-A3B-Instruct-FP8 и Qwen3-Next-80B-A3B-Thinking-FP8 используют 8-битное число с плавающей запятой для ускорения работы. Обе модели легко интегрируются с фреймворками Transformers, vLLM и SGLang.

FP8-модели предназначены для ситуаций, где важна максимальная скорость, например, в задачах с запуском AI-сервисов в реальном времени. Формат FP8 в сравнении с FP16 или INT8 обеспечивает лучшее соотношение между производительностью и энергопотреблением, но с некоторым снижением точности.

Модели уже доступны на Hugging Face и ModelScope. Instruct-версия подходит для чат-ботов и ассистентов, а Thinking-модель предназначена для сложных задач с большим объёмом логики.

Ранее Alibaba представила языковую модель Qwen3-Next на основе архитектуры MoE. По информации компании, модель работает заметно быстрее предыдущих версий и сохраняет качество ответов.

В модели Qwen3 ранее использовалось 128 экспертов с активацией восьми на каждом шаге. В Qwen3-Next расширили слой до 512 экспертов, но включают только 10 из них плюс общий эксперт. По словам Alibaba, это дало более чем десятикратное ускорение по сравнению с Qwen3-32B, особенно при больших текстах более 32 000 токенов.

В архитектуру внесли множество правок для стабильной работы. Среди них — нормализация параметров роутера и выходное управление в слоях внимания. Это убирает дисбаланс, снижает числовые ошибки и минимизирует проблемы инициализации.

Вместе с базовой версией Alibaba выпустила две специализированные: Qwen3-Next-80B-A3B-Instruct для широкого применения и Qwen3-Next-80B-A3B-Thinking для задач, связанных с логикой. В компании уточнили: «Instruct-модель работает почти так же хорошо, как Qwen3-235B-A22B-Instruct при длинных контекстах до 256 000 токенов». Thinking-модель, по результатам тестов Alibaba, обходит закрытую Google Gemini 2.5 Flash Thinking по ряду задач и подходит к флагману Alibaba по ключевым метрикам.

Модели уже можно использовать через Hugging Face, ModelScope и Nvidia API Catalog. Для запуска на своих серверах Alibaba советует применять специализированное ПО типа sglang или vllm. Поддерживаются тексты до 256 000 токенов, а с дополнительными методами — до миллиона.

Источник

Оцените статью
Gimal-Ai