Китайская компания Moonshot AI выпустила новый мультимодальный модельный продукт Kimi k1.5, который демонстрирует выдающиеся результаты в сложных задачах рассуждения, конкурируя с OpenAI o1 и DeepSeek-R1.
Две версии Kimi k1.5:
- long-CoT: для детального пошагового анализа.
- short-CoT: для кратких и лаконичных ответов.
Обе версии в ряде тестов показывают производительность на уровне или выше, чем у GPT-4o и Claude 3.5 Sonnet. Модель обрабатывает как текст, так и изображения, что позволяет анализировать мультимодальные данные.
Особенности разработки Kimi k1.5:
- Предобучение: Использована огромная база текстов и изображений для базового понимания языка и визуальных данных.
- Дообучение (SFT): Нацелено на выбор правильных решений с помощью «отбора по отклонениям» (rejection sampling).
- Усиленное обучение (RL): Вместо стандартной оценки промежуточных шагов команда сфокусировалась на финальном результате. Для улучшения эффективности ответов добавлен штраф за излишнюю длину.
Ключевые достижения:
- На мультимодальных тестах, таких как MathVista и MMMU, Kimi k1.5 превзошла многие конкурирующие модели.
- Увеличение контекстного окна до 128k токенов улучшило результаты в сложных задачах.
- Использована техника «Shortest Rejection Sampling,» которая выбирает самый краткий корректный ответ, перенимая знания от long-CoT.
Основанная в 2023 году, компания быстро привлекла более $1 миллиарда инвестиций, включая средства от Alibaba, Tencent и Gaorong Capital. К августу 2024 года её оценка достигла $3.3 миллиарда.
Kimi k1.5 станет основой нового конкурента ChatGPT, однако модель пока недоступна широкой аудитории.