ИИ Tencent умеет объяснять и применять стратегии в Honor of Kings

Исследователи из Tencent проводят эксперименты по обучению ИИ стратегическому мышлению с помощью игры Honor of Kings. Результаты показывают, что меньшие по размеру модели могут обойти значительно более крупные системы при определённых условиях.

Команда отмечает важную проблему: большинство ИИ-агентов умеют играть, но не объясняют свои действия, а языковые модели способны рассуждать о стратегии, но с трудом играют сами. Разработанная ими схема “Think in Games” (TiG) должна решить эту задачу.

В исследовании использовалась мобильная MOBA-игра Honor of Kings от Tencent, где требуется сложная командная стратегия. Исследователи выделили 40 макро-действий, например: “Толкать топ-линию”, “Захватить дракона”, “Защищать базу”. ИИ нужно было выбрать лучшее из них и объяснить свой выбор.

Обучение шло на анонимизированных записях реальных матчей — поровну побед и поражений. Данные были стандартизированы, каждому ходу присваивалось макро-действие.

Тренировку разделили на два этапа. Сначала использовалось обучение с учителем для понимания базовых механик. Затем применялось обучение с подкреплением — за правильное действие модель получала балл, за неправильное — ноль.

В тестах участвовали языковые модели Qwen2.5 (7, 14 и 32 миллиарда параметров) и новая Qwen3-14B. Для сравнения добавили крупную модель Deepseek-R1.

Обучение включало два шага: сначала команда использовала сжатые данные от Deepseek-R1, затем применяла метод Group Relative Policy Optimization (GRPO), который сравнивает ответы группы и учит на их разнице.

В результате Qwen3-14B после 2000 шагов обучения с помощью GRPO правильно выбирала стратегию в 90,91% случаев. Deepseek-R1 показывала 86,67%. GRPO заметно поднял точность: Qwen-2.5-32B улучшилась с 66,67% до 86,84%, а Qwen-2.5-14B — с 53,25% до 83,12%. GRPO нормализует вознаграждения и учитывает относительные преимущества, что помогает стабильному обучению.

Обученные модели могут объяснять свой выбор. Например, система выбрала в качестве цели слабую башню и предупредила о возможных засадах противника. Умения, полученные в игре Honor of Kings, не мешают модели читать текст, решать математику и отвечать на вопросы.

Команда считает, что разработанная ими схема пригодится не только в играх, но и в других сферах, где нужно стратегическое мышление и пояснения. Однако они отмечают, что итог зависит от качества исходной языковой модели и пока не ясно, сработает ли этот подход вне игр.

Другие похожие проекты тоже используют реальные игры в качестве обучающих данных. В августе 2025 года Google представила платформу Game Arena — там модели сравнивают не на тестах, а в играх. Раньше ROCKET-1 продемонстрировал, что иерархический агент в Minecraft может решать простые задачи с точностью до 100%. Такой подход становится новой тенденцией.

Источник

Оцените статью
Gimal-Ai