Исследователи из лаборатории Hao при Калифорнийском университете Сан-Диего заявили, что Super Mario Bros. служит более сложной проверкой для ИИ, чем Покемон. ИИ-модель Claude 3.7 показала наилучшие результаты, тогда как Google Gemini 1.5 Pro и OpenAI GPT-4o испытывали трудности.
Super Mario Bros. в этом эксперименте отличался от оригинала 1985 года. Игра запускалась через эмулятор с использованием фреймворка GamingAgent, дающего ИИ возможность управлять Марио.
GamingAgent, разработанный в Hao, предоставлял ИИ базовые инструкции и скриншоты игры. ИИ генерировал команды в виде Python-кода для управления персонажем.
Даже при этих упрощениях, по утверждению Hao, игра требовала, чтобы каждый ИИ “учился” стратегическому планированию. Замечательно, что так называемые “модели рассуждения” выступили хуже, чем “нерассуждающие” модели, хотя обычно они сильнее на других тестах. Основная причина — “модели рассуждения” медленнее принимают решения, что в реальном времени является недостатком.
Игры уже давно используются для оценки работы ИИ, однако это вызывает дискуссии о связях между игровыми навыками ИИ и технологическим прогрессом. Игры более абстрактны и предоставляют неограниченное количество данных для обучения ИИ.
Эти находки согласуются с мнением Андрея Карпата из OpenAI о кризисе в оценке ИИ. В посте на X он написал: “Я не знаю, какие метрики ИИ использовать прямо сейчас. Если кратко, я не уверен в качестве этих моделей.”
Тем не менее, мы можем наблюдать, как ИИ играет в Марио.