Исследователи из Tencent проводят эксперименты по обучению ИИ стратегическому мышлению с помощью игры Honor of Kings. Результаты показывают, что меньшие по размеру модели могут обойти значительно более крупные системы при определённых условиях.
Команда отмечает важную проблему: большинство ИИ-агентов умеют играть, но не объясняют свои действия, а языковые модели способны рассуждать о стратегии, но с трудом играют сами. Разработанная ими схема “Think in Games” (TiG) должна решить эту задачу.
В исследовании использовалась мобильная MOBA-игра Honor of Kings от Tencent, где требуется сложная командная стратегия. Исследователи выделили 40 макро-действий, например: “Толкать топ-линию”, “Захватить дракона”, “Защищать базу”. ИИ нужно было выбрать лучшее из них и объяснить свой выбор.
Обучение шло на анонимизированных записях реальных матчей — поровну побед и поражений. Данные были стандартизированы, каждому ходу присваивалось макро-действие.
Тренировку разделили на два этапа. Сначала использовалось обучение с учителем для понимания базовых механик. Затем применялось обучение с подкреплением — за правильное действие модель получала балл, за неправильное — ноль.
В тестах участвовали языковые модели Qwen2.5 (7, 14 и 32 миллиарда параметров) и новая Qwen3-14B. Для сравнения добавили крупную модель Deepseek-R1.
Обучение включало два шага: сначала команда использовала сжатые данные от Deepseek-R1, затем применяла метод Group Relative Policy Optimization (GRPO), который сравнивает ответы группы и учит на их разнице.
В результате Qwen3-14B после 2000 шагов обучения с помощью GRPO правильно выбирала стратегию в 90,91% случаев. Deepseek-R1 показывала 86,67%. GRPO заметно поднял точность: Qwen-2.5-32B улучшилась с 66,67% до 86,84%, а Qwen-2.5-14B — с 53,25% до 83,12%. GRPO нормализует вознаграждения и учитывает относительные преимущества, что помогает стабильному обучению.
Обученные модели могут объяснять свой выбор. Например, система выбрала в качестве цели слабую башню и предупредила о возможных засадах противника. Умения, полученные в игре Honor of Kings, не мешают модели читать текст, решать математику и отвечать на вопросы.
Команда считает, что разработанная ими схема пригодится не только в играх, но и в других сферах, где нужно стратегическое мышление и пояснения. Однако они отмечают, что итог зависит от качества исходной языковой модели и пока не ясно, сработает ли этот подход вне игр.
Другие похожие проекты тоже используют реальные игры в качестве обучающих данных. В августе 2025 года Google представила платформу Game Arena — там модели сравнивают не на тестах, а в играх. Раньше ROCKET-1 продемонстрировал, что иерархический агент в Minecraft может решать простые задачи с точностью до 100%. Такой подход становится новой тенденцией.






















