Artificial Analysis выпустила четвертую версию своего Intelligence Index, где оценивается уровень ИИ-моделей по нескольким тестам. На первом месте оказался OpenAI GPT-5.2 с максимальным уровнем рассуждения, за ним следуют Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google.
В индексе используются четыре категории с одинаковым весом: агенты, программирование, научное мышление и общий уровень. Максимальный балл теперь составляет 50, тогда как раньше были значения до 73, что делает распределение более равномерным.
В этом обновлении убрали старые тесты (AIME 2025, LiveCodeBench и MMLU-Pro) и добавили новые. AA-Omniscience оценивает знания моделей по 40 темам и выявляет галлюцинации, GDPval-AA проверяет практические задачи в 44 профессиях, CritPt — задачи из исследований по физике. Artificial Analysis сообщила, что все тесты проводила сама по единой методике. Подробности доступны на сайте компании.





















