Gemini лидируют в рейтинге ИИ по настольным играм

Google Gemini опережает конкурентов в тестах на настольных играх. Google DeepMind и Kaggle добавили на платформу “Game Arena” две новые игры: Werewolf и Poker.

Эти игры оценивают разные умения искусственного интеллекта: шахматы проверяют логическое мышление, Werewolf — социальные навыки, такие как общение и обнаружение обмана, Poker — умение принимать решения в условиях риска и неполной информации.

Платформа помогает объективно измерять такие качества, как планирование и принятие решений при неопределённости. Gemini 3 Pro и Gemini 3 Flash занимают верхние строчки рейтингов во всех категориях.

Бенчмарк Werewolf также используют для исследований в области безопасности: он позволяет проверить, может ли модель выявлять манипуляции без последствий в реальной жизни. По словам главы Google DeepMind Демиса Хассабиса, «индустрии ИИ нужны более строгие тесты, чтобы правильно оценивать современные модели».

Источник

Оцените статью
Gimal-Ai