Традиционные методы оценки ИИ оказались недостаточными. Поэтому разработчики обращаются к более креативным способам проверки возможностей генеративных моделей ИИ. Один из таких способов — игра Minecraft.
На сайте Minecraft Benchmark (MC-Bench) AI модели соревнуются в создании предметов в Minecraft по заданным запросам. Пользователи голосуют за лучшее творение и только после этого узнают, какая ИИ-модель его сделала.
Ади Сингх, ученик 12 класса и создатель MC-Bench, считает, что ценность Minecraft в его популярности. «Minecraft позволяет людям легче оценивать прогресс разработки ИИ», — сказал Сингх.
На сайте MC-Bench информацию о проекте предоставили восемь добровольцев. Проект поддерживают Anthropic, Google, OpenAI и Alibaba, предоставляя свои продукты для выполнения заданий, что было подтверждено на сайте MC-Bench.
Другие игры, такие как Pokémon Red и Street Fighter, также использовались для оценки ИИ из-за сложности данного процесса. Многие стандартизированные тесты часто дают ИИ преимущество в тех задачах, к которым они обучены.
MC-Bench фактически является программированием, так как модели должны писать код, чтобы строить объекты, например, «Фрости Снеговика» или «очаровательную тропическую хижину на берегу». Это делает MC-Bench более доступным для пользователей.
По словам Сингха, результаты на MC-Bench отражают его личный опыт использования моделей, что выглядит полезней по сравнению с текстовыми оценками. Он считает, что это может помочь компаниям лучше разобраться в направлении их движений в развитии ИИ.