MiniMax представила самообучающуюся M2.7

Китайская компания MiniMax представила модель M2.7, которая, по заявлению разработчика, активно участвовала в собственном обучении. Компания сообщает, что за счёт автономных циклов оптимизации модель улучшала процесс тренировки и показала конкурентные результаты в бенчмарках.

По данным MiniMax, во время разработки M2.7 сама обновляла свои хранилища знаний, создавала десятки функций внутри агентной инфраструктуры и улучшала обучение с подкреплением. Затем модель использовала полученные результаты, чтобы скорректировать собственный процесс обучения.

MiniMax называет M2.7 «первой моделью, глубоко участвующей в собственной эволюции». Компания также описала сценарий, при котором в будущем ИИ сможет почти без участия человека координировать подготовку данных, обучение модели, архитектуру вывода, оценку и другие этапы.

Похожий подход тестирует и OpenAI. Недавно компания представила кодовую модель GPT-5.3 Codex и заявила, что ранние версии системы использовались для поиска ошибок во время обучения, управления развертыванием и оценки результатов тестов. В OpenAI отметили, что были удивлены тем, насколько Codex ускорил собственную разработку.

Чтобы проверить пределы такой самооптимизации, MiniMax задействовала внутреннюю версию M2.7 в исследовательской агентной системе, которая работает с разными командами внутри компании. По данным разработчика, агент берёт на себя поиск научных материалов, отслеживание экспериментов, отладку, анализ метрик и исправление кода в ежедневной работе команды по RL, то есть обучению с подкреплением.

Люди подключаются только в моменты, когда нужно принять критически важные решения. По оценке компании, модель закрывает от 30% до 50% всего рабочего процесса.

В одном из экспериментов M2.7 более чем за 100 раундов полностью самостоятельно улучшала производительность модели при программировании во внутренней среде разработки. На каждом шаге система анализировала ошибки, планировала изменения, правила код, тестировала результат и решала, сохранять изменения или отклонять их. По данным MiniMax, это дало прирост производительности на 30% на внутренних наборах оценки.

В 22 соревнованиях по машинному обучению из набора OpenAI MLE Bench Lite модель показала средний «медальный» результат 66,6% по итогам трёх 24-часовых запусков. По словам MiniMax, это ниже Opus 4.6 с 75,7% и GPT-5.4 с 71,2%, но примерно соответствует Gemini 3.1.

При этом результаты бенчмарков полезны как ориентир, но не всегда отражают поведение модели в реальных задачах. Итоги сильно зависят от условий теста, формата промптов и оптимизации модели, поэтому такие показатели стоит рассматривать как справочную оценку, а не как окончательную меру качества.

По данным MiniMax, в тестах по программной инженерии M2.7 показывает результаты на уровне ведущих западных моделей. В SWE-Pro модель набрала 56,22%, что компания сравнивает с GPT-5.3-Codex. В VIBE-Pro, который оценивает выполнение проекта целиком, результат составил 55,6%.

Компания также утверждает, что в реальных рабочих сценариях M2.7 в нескольких случаях сокращала время восстановления после сбоев в производственных системах до менее чем трёх минут.

Для офисных задач M2.7 получила ELO-рейтинг 1495 в бенчмарке GDPval-AA. MiniMax заявляет, что это лучший результат для моделей с открытыми весами. По словам компании, система точно выполняет многоуровневое редактирование в Word, Excel и PowerPoint и сохраняет 97% соблюдения правил более чем в 40 наборах сложных инструкций.

В качестве практического примера MiniMax описывает финансовый разбор TSMC. По данным компании, M2.7 самостоятельно изучила годовые отчёты, построила модель прогноза продаж и оформила результат в виде презентации и исследовательского отчёта. Финансовые эксперты отметили, что такой материал уже можно использовать как черновик первого уровня.

Помимо рабочих сценариев, MiniMax сообщила об улучшении согласованности поведения персонажей и эмоционального интеллекта модели. Для демонстрации этих возможностей компания выпустила OpenRoom — проект с открытым исходным кодом, который переносит взаимодействие с ИИ в графическую веб-среду, где персонажи сами реагируют на происходящее вокруг.

M2.7 доступна через MiniMax Agent и API-платформу. При этом, в отличие от прошлых версий, веса модели пока не опубликованы.

Теоретическую основу для самосовершенствующегося ИИ ещё в 2003 году предложил Юрген Шмидхубер в концепции «машины Гёделя». Она предполагает, что система меняет собственный код только при формальном доказательстве пользы. Более прикладной подход используют проекты Darwin-Gödel Machine от Sakana AI и Huxley-Gödel Machine из лаборатории Шмидхубера в KAUST: там ИИ-агенты поэтапно меняют свой код и отбирают лучшие варианты по результатам работы.

Источник: The Decoder, MiniMax, OpenAI.

Оцените статью
Gimal-Ai