Qwen2.5-Omni: универсальная модель для текста, звука, видео и речи

Qwen2.5-Omni

Alibaba представила Qwen2.5-Omni — новую флагманскую мультимодальную модель. Она обрабатывает текст, изображения, аудио и видео, а также отвечает голосом и текстом в режиме реального времени. Модель доступна на Hugging Face, ModelScope, DashScope и GitHub, а также в Qwen Chat (выберите Qwen2.5-Omni-7B).

Главные особенности:

  • Архитектура Thinker-Talker: Thinker анализирует текст, звук и видео, генерируя текстовые ответы. Talker — это голосовой модуль, который превращает эти ответы в естественную речь.
  • Синхронизация аудио и видео благодаря технологии TMRoPE (Time-aligned Multimodal RoPE).
  • Голосовой и видеочат в реальном времени: поддержка потокового ввода и мгновенного вывода.
  • Качественная генерация речи, лучше многих существующих решений — и потоковых, и нет.
  • Сильные результаты по всем типам данных: модель обходит по звуку Qwen2-Audio, а по визуальным задачам показывает уровень Qwen2.5-VL-7B.
  • Понимание голосовых команд наравне с текстовыми, по тестам вроде MMLU и GSM8K.

Qwen2.5-Omni успешно прошла тесты по:

  • распознаванию речи (Common Voice),
  • переводу (CoVoST2),
  • аудиоаналитике (MMAU),
  • визуальному и видеопониманию (MMMU, MMStar, MVBench),
  • генерации речи (Seed-tts-eval).

В Alibaba планируют улучшить распознавание голосовых команд и совместную обработку аудио и видео, а также добавить новые типы данных.

Источник

Оцените статью
Gimal-Ai