Искусственный интеллект Kimi K2 побил рекорды agentic reasoning

Китайская компания Moonshot AI представила новый открытый языковой ИИ-модель Kimi K2 Thinking, которую называет «лучшей открытой моделью для логики и размышлений».

Kimi K2 Thinking работает как «мыслящий агент». Модель выполняет сложные задания шаг за шагом, используя множество инструментов. Инновация — так называемый «test time scaling»: во время работы количество операций по анализу и поиску решения может увеличиваться, чтобы модель могла дойти до результата без помощи человека. По данным Moonshot AI, модель делает от 200 до 300 вызовов инструментов подряд, поддерживая логику на сотни шагов вперёд.

Объем модели огромен — один триллион параметров, но благодаря архитектуре mixture-of-experts одновременно используется только 32 миллиарда параметров. Контекстное окно — до 256 000 токенов.

Moonshot AI сообщает, что K2 Thinking поставила рекорды на нескольких бенчмарках. Например, в Humanity’s Last Exam (HLE, решение задач с помощью инструментов) модель набрала 44,9% — это новый максимум для теста. В BrowseComp результат составил 60,2%, что сильно выше человеческого базового уровня (29,2%).

В задачах по кодированию K2 Thinking набрала 71,3% на SWE-Bench Verified и 61,1% на SWE-Multilingual, опередив по этим показателям коммерческие модели уровня GPT-5, Claude Sonnet 4.5 и китайского конкурента Deepseek-V3.2 (некоторые из результатов отмечены в сравнительной таблице компании).

В демоверсии, модель сгенерировала рабочий редактор документов Word по одному запросу. Также компания отмечает сильные результаты по задачам HTML, React и другим фронтенд-технологиям: K2 Thinking превращает описания задач в рабочие приложения.

Для демонстрации логических навыков приводится пример: «Модель решила задачу уровня аспирантуры по математике, сделав 23 последовательных шага и вызова инструментов — от поиска литературы до расчетов и финального ответа».

K2 Thinking поддерживает динамичные циклы для поиска и анализа информации. Модель выполняет последовательности анализа, поиска, просмотра данных, новых размышлений и программирования, постоянно проверяя гипотезы и собирая целостные ответы.

В одном тесте, модель получила задачу: найти человека с определенным образованием, карьерой в NFL, и ролями в кино и на ТВ. K2 Thinking системно искала информацию и вывела верный ответ — Джимми Гэри-младший.

Для ускорения работы и уменьшения нагрузки на память Moonshot AI использует технику обучения с учетом квантизации: опубликованные результаты уже показывают работу оптимизированной версии, которая генерирует текст примерно вдвое быстрее необработанной.

K2 Thinking доступна на сайте kimi.com и через API. Полноценный Agentic Mode появится позже; сейчас доступен чат с базовым набором инструментов для быстрой работы. Веса модели есть на Hugging Face.

Стандартная модель Kimi K2 проявила себя в июле: она уверенно соревновалась с лидерами вроде Claude Sonnet 4 и GPT-4.1, хотя специально не обучалась для логики, а только для работы с инструментами и агентными задачами.

Источник

Оцените статью
Gimal-Ai