Kimi K2 Thinking устанавливает рекорды среди open-source LLM

Китайская компания Moonshot AI представила Kimi K2 Thinking — новый открытый языковой ИИ, который, по заявлению создателей, является «лучшей open-source моделью для рассуждений».

Модель работает как «агент», способный пошагово решать сложные задачи с помощью разных инструментов. В Kimi K2 Thinking реализована техника test time scaling: во время работы модель увеличивает число задействованных токенов для рассуждений и число вызовов инструментов. По словам Moonshot AI, она может использовать от 200 до 300 инструментов подряд без участия человека, сохраняя логику на протяжении сотен шагов.

K2 Thinking состоит из триллиона параметров, но благодаря архитектуре mixture-of-experts в работе одновременно используется только 32 млрд. Контекстное окно модели — 256 тысяч токенов.

Компания отмечает рекордные показатели модели в различных тестах. На Humanity’s Last Exam (HLE) с инструментами K2 Thinking набрала 44,9% — это лучший результат для этого теста, утверждает Moonshot AI. На BrowseComp (тест поисковых и браузерных возможностей) — 60,2% при человеческом уровне в 29,2%.

Для задач программирования модель показала 71,3% на SWE-Bench Verified и 61,1% на SWE-Multilingual. По данным компании, эти показатели превосходят такие модели, как GPT-5, Claude Sonnet 4.5 и Deepseek-V3.2 в некоторых тестах.

Moonshot отметил демонстрацию, где Kimi K2 Thinking создала полноценный редактор документов в стиле Word по одному запросу. Модель хорошо справляется с HTML, React и другими фронтенд задачами — задание превращается в работающую, отзывчивую веб-программу.

Одна из сильных сторон — пошаговые рассуждения. В одном из примеров модель решила задачу уровня PhD по математике, сделав 23 последовательных запроса к инструментам. Она самостоятельно искала литературу, проводила вычисления и нашла верный ответ — доказывая, что способна шаг за шагом разбирать сложные задачи.

K2 Thinking поддерживает динамические циклы поиска и анализа. Модель может «думать, искать, просматривать информацию, снова думать и программировать», формируя гипотезы, проверяя факты и выдавая согласованный ответ.

В одной из демонстраций модель решала задачу по поиску человека по нескольким условиям: образование, карьера в НФЛ, участие в кино и на ТВ. K2 Thinking изучила разные источники и определила имя — Джимми Гэри-младший.

Для практического применения модель тренируется с поддержкой компенсации для квантования — это снижает требования к памяти и ускоряет генерацию текста вдвое по сравнению с исходным вариантом. Компания отмечает, что все опубликованные результаты получены уже с этой оптимизацией.

K2 Thinking уже доступна на сайте kimi.com и через API. Полноценный агентный режим появится позже, сейчас чат-режим предлагает быстрый доступ к инструментам. Весовые параметры модели выложены на Hugging Face.

В июле Moonshot AI уже привлекла внимание обычным Kimi K2: та модель конкурировала с флагманами вроде Claude Sonnet 4 и GPT-4.1 — и это без отдельного обучения на сложные рассуждения, а только с оптимизацией под работу с инструментами. Уже тогда модель с триллионом параметров показала достойные результаты в математике, науке и многоязычных задачах.

Источник

Оцените статью
Gimal-Ai