Alibaba представила новый ИИ-модель Qwen2.5-Max, превзошедшую DeepSeek-V3

Alibaba выпустила новую языковую модель Qwen2.5-Max, которая была обучена на рекордных 20 трлн токенов. Она пополнила серию Qwen2.5, куда также входят Qwen2.5-VL и Qwen2.5-1M.

Модель создана на основе архитектуры mixture-of-experts (MoE) и обошла в тестах такие мощные модели, как Deepseek-V3, GPT-4o, Claude 3.5 Sonnet и Llama-3.1-405B. Для сравнения, Deepseek-V3 и Llama-3.1-405B обучались на 15 трлн токенов. Особенно сильные результаты Qwen2.5-Max показала в бенчмарках Arena-Hard и LiveBench.

Где доступна модель? Использовать Qwen2.5-Max можно через API Alibaba Cloud или в чат-боте Qwen Chat, который поддерживает поиск в интернете и генерацию контента. Однако Alibaba не раскрывает источники данных для обучения модели, хотя эксперты предполагают, что значительная часть может быть синтетической — то есть сгенерированной другими ИИ.

Несмотря на огромные объемы данных, преимущество модели над конкурентами остается умеренным. Это подтверждает мнение сообщества ИИ, что важнее не размер обучающего датасета, а вычислительные мощности во время инференса.

В отличие от других моделей серии Qwen2.5, Qwen2.5-Max не будет открытым кодом — она останется доступной только через API. Alibaba предлагает конкурентные цены и OpenAI-совместимый интерфейс, чтобы привлечь разработчиков на свою облачную платформу. Однако, как и другие китайские ИИ, Qwen2.5-Max работает в рамках цензурных ограничений Китая.

Источник

Оцените статью
Gimal-Ai