Google Gemini опережает конкурентов в тестах на настольных играх. Google DeepMind и Kaggle добавили на платформу “Game Arena” две новые игры: Werewolf и Poker.
Эти игры оценивают разные умения искусственного интеллекта: шахматы проверяют логическое мышление, Werewolf — социальные навыки, такие как общение и обнаружение обмана, Poker — умение принимать решения в условиях риска и неполной информации.
Платформа помогает объективно измерять такие качества, как планирование и принятие решений при неопределённости. Gemini 3 Pro и Gemini 3 Flash занимают верхние строчки рейтингов во всех категориях.
Бенчмарк Werewolf также используют для исследований в области безопасности: он позволяет проверить, может ли модель выявлять манипуляции без последствий в реальной жизни. По словам главы Google DeepMind Демиса Хассабиса, «индустрии ИИ нужны более строгие тесты, чтобы правильно оценивать современные модели».





















