Moonshot AI представила Kimi-VL: производительный open-source ИИ для обработки текста, изображений и видео

kimi

Китайский стартап Moonshot AI выпустил open-source модель Kimi-VL, способную обрабатывать текст, изображения и видео. Главной особенностью Kimi-VL стали высокая эффективность и работа с длинными документами, сложным рассуждением и анализом пользовательских интерфейсов.

В основе Kimi-VL лежит архитектура mixture-of-experts, где для каждой задачи активируется только часть модели. По данным Moonshot AI, модель использует 2,8 млрд активных параметров — это меньше, чем у большинства крупных ИИ, но по ряду бенчмарков Kimi-VL показывает сопоставимые или лучшие результаты.

Модель поддерживает контекст до 128 000 токенов: этого хватит на обработку целой книги или длинной расшифровки видео.

Kimi-VL хорошо проявляет себя на тестах LongVideoBench и MMLongBench-Doc. Система может анализировать комплексные скриншоты, графики, рукописные заметки и решать задачи по изображениям, включая математические. В одном тесте модель распознала рукописные упоминания Альберта Эйнштейна и объяснила их значение.

Kimi-VL может выступать цифровым ассистентом — понимать графические интерфейсы и автоматизировать действия пользователя. В тестах по навигации по браузерным меню и настройкам система превзошла многие аналоги, в том числе GPT-4o.

По заявлениям компании, Kimi-VL лидирует в 19 из 24 бенчмарков по сравнению с другими open-source моделями, такими как Qwen2.5-VL-7B и Gemma-3-12B-IT, несмотря на меньшее число активных параметров. На MMBench-EN и AI2D модель показывает результаты на уровне коммерческих систем крупнее.

Высокую производительность в Moonshot AI объясняют особым подходом к обучению: помимо стандартного fine-tuning, используется усиление с подкреплением. Специальная версия Kimi-VL-Thinking тренировалась для улучшения пошагового рассуждения и задач по математике.

При этом у модели есть ограничения: текущий размер ограничивает работу с задачами, требующими богатого текста или специфической тематики. Проблемы возникают с очень длинными контекстами, несмотря на их расширение.

Moonshot AI планирует дальнейшую доработку моделей, увеличение объёма данных тренировки и улучшение fine-tuning. В компании заявляют: «Наша цель — создать мощную и экономичную систему для реального применения в науке и индустрии».

Ранее Moonshot AI выпустила модель Kimi k1.5, которая также сложна к рассуждению и успешно соперничает с GPT-4o на ряде тестов. Kimi k1.5 доступна через веб-интерфейс kimi.ai. Демо Kimi-VL представлено на Hugging Face.

Источник

Оцените статью
Gimal-Ai