Исследователи открыли неожиданный способ научить мультимодели математическому мышлению — с помощью простых аркадных игр, таких как Snake и Tetris, а не стандартных датасетов по математике.
Обычно нейросети учат с помощью специализированных данных. Но новая работа Rice University, Johns Hopkins University и Nvidia предлагает другой подход, названный “Visual Game Learning” (ViGaL). Основой послужила модель Qwen2.5-VL-7B.
В основе идеи лежат находки из когнитивных наук: игры могут улучшать решение задач. Для эксперимента создали два варианта игровых сред — Snake и модифицированный Tetris, каждая из которых тренирует свой тип мышления.
В Snake модель управляла двумя змеями на сетке 10х10, борясь за яблоки. В игре по мотивам Tetris нейросеть распознавала 3D-объекты, повёрнутые на 90 или 180 градусов.
Исследователи сгенерировали по 36 000 обучающих примеров для каждого типа игры, усложняя задачи по мере необходимости. Для 3D-объектов использовали Hunyuan3D. Snake улучшил результаты модели на координатной геометрии и выражениях, а ротационные задания — на поиске углов и длин.
После игровой тренировки базовая модель обошла специализированную MM-Eureka-Qwen-7B: 50,6% против 50,1% на математических тестах. В задачах по геометрии разрыв был заметнее — показатели почти удвоились. Это связано частично с низким результатом MM-Eureka на тесте Geo3K.
ViGaL показал хорошие результаты и по сравнению с закрытыми системами: средняя точность по тестам — 53,9% (больше, чем у GPT-4o — 47,5%, но чуть меньше, чем у Gemini 2.0 Flash — 55,4%).
На сложных математических задачах небольшая дообученная модель превзошла значительно большую GPT-4o: 64,7% против 55,9%. В общих заданиях ViGaL немного уступил базовой модели и GPT-4o.
Модель также успешно справилась с Atari-играми, которые отличаются от первоначальных сред: показатели модели почти вдвое выросли.
Ключевым элементом стали инструктивные подсказки: запросы вроде “найди ближайшее яблоко по Манхэттенскому расстоянию” или “определи оси симметрии” увеличивали точность на 1,9%.
Значимым оказалось и построение функции вознаграждения: модель училась находить как лучшие, так и худшие ходы, что принесло ещё 1,8% прироста. Настройка сложности — например, длины змейки — улучшала стабильность обучения.
В целом обучение с наградами увеличило результат на 12,3%, а обычное дообучение на тех же данных, наоборот, снижало точность на 1,9%. Увеличение объёма данных дало дополнительный прирост на 1,3%.
По мнению авторов, такой подход открывает новый путь для обучения ИИ: им не нужны дорогие размеченные данные — игры могут стать масштабируемой тренировкой для развития общего мышления. В будущем планируется протестировать другие игровые методы.