Alibaba представила Qwen2.5-Omni — новую флагманскую мультимодальную модель. Она обрабатывает текст, изображения, аудио и видео, а также отвечает голосом и текстом в режиме реального времени. Модель доступна на Hugging Face, ModelScope, DashScope и GitHub, а также в Qwen Chat (выберите Qwen2.5-Omni-7B).
Главные особенности:
- Архитектура Thinker-Talker: Thinker анализирует текст, звук и видео, генерируя текстовые ответы. Talker — это голосовой модуль, который превращает эти ответы в естественную речь.
- Синхронизация аудио и видео благодаря технологии TMRoPE (Time-aligned Multimodal RoPE).
- Голосовой и видеочат в реальном времени: поддержка потокового ввода и мгновенного вывода.
- Качественная генерация речи, лучше многих существующих решений — и потоковых, и нет.
- Сильные результаты по всем типам данных: модель обходит по звуку Qwen2-Audio, а по визуальным задачам показывает уровень Qwen2.5-VL-7B.
- Понимание голосовых команд наравне с текстовыми, по тестам вроде MMLU и GSM8K.
Qwen2.5-Omni успешно прошла тесты по:
- распознаванию речи (Common Voice),
- переводу (CoVoST2),
- аудиоаналитике (MMAU),
- визуальному и видеопониманию (MMMU, MMStar, MVBench),
- генерации речи (Seed-tts-eval).
В Alibaba планируют улучшить распознавание голосовых команд и совместную обработку аудио и видео, а также добавить новые типы данных.