Сравнение OpenAI, Anthropic и Google по Artificial Analysis

Artificial Analysis выпустила четвертую версию своего Intelligence Index, который оценивает модели искусственного интеллекта по разным критериям. На первом месте оказалась GPT-5.2 от OpenAI с максимальными показателями рассуждения. За ней следуют Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google.

Индекс учитывает четыре одинаково важных рейтинга: Agents, Программирование, Научное рассуждение и Общий уровень. В этот раз оценки моделей менее высокие — лучший результат составил 50 баллов вместо 73, как в прошлом выпуске рейтинга.

В новой версии заменили три прежних теста на новые испытания: AA-Omniscience анализирует знания моделей по 40 темам и выявляет галлюцинации, GDPval-AA проверяет выполнение практических задач в 44 профессиях, а CritPt даёт задания из физики.

В Artificial Analysis утверждают: все тесты проходили самостоятельно, с единым стандартом. Детали доступны на сайте компании.

Источник

Оцените статью
Gimal-Ai