Новый ИИ-бенчмарк: Gemini 3 Pro лидирует по надежности

Новый рейтинг от Artificial Analysis показал серьезные проблемы с точностью больших языковых моделей. Из 40 протестированных ИИ-моделей только четыре получили положительные баллы, а лидером стал Gemini 3 Pro от Google.

Gemini 3 Pro получил 13 баллов по новому индексу Omniscience (от -100 до 100). Это на 14 баллов больше, чем у Grok 4, который раньше считался самым точным. Ближайшие конкуренты — Claude 4.1 Opus с 4,8 баллами, GPT-5.1 и Grok 4. Такой результат объясняется высокой фактической точностью Gemini 3 Pro.

По данным Artificial Analysis, преимущество модели основано на ее точности, причем она на 14 баллов опередила Grok 4, прежнего рекордсмена. Исследователи объясняют это масштабом модели.

Почти все модели показали плохие результаты из-за высокой частоты галлюцинаций. Gemini 3 Pro достиг самой высокой точности — 53%, намного опередив GPT‑5.1 (high) и Grok 4 (у обоих 39%). Но даже у Gemini 3 Pro процент галлюцинаций — 88%, как у Gemini 2.5 Pro и Gemini 2.5 Flash.

У GPT‑5.1 (high) и Grok 4 эти показатели также высоки — 81% и 64% соответственно. Artificial Analysis отмечают, что Gemini 3 Pro уверен в себе, часто выдавая ложные ответы, вместо того чтобы признать неуверенность.

Здесь под “галлюцинациями” понимают долю ложных ответов среди всех неправильных — то есть модель часто уверена в несуществующих фактах.

Claude 4.1 Opus показал 36% точности и один из самых низких уровней галлюцинаций. До появления новой версии Gemini он считался лучшим.

В бенчмарке AA-Omniscience — 6 000 вопросов по 42 темам в шести сферах: бизнес, гуманитарные и социальные науки, здравоохранение, право, разработка ПО, наука и математика. Вопросы сгенерированы на основе авторитетных научных и индустриальных источников.

В отличие от других рейтингов, индекс Omniscience штрафует за ошибку так же, как поощряет за верный ответ. Авторы считают, что старые методы нередко провоцируют “угадай-ответ”, что увеличивает число галлюцинаций.

В этом индексе модели получают 0 баллов за признание неуверенности, но их не штрафуют. За неправильные же ответы идет сильное снижение баллов.

Аналитики разделили ИИ на четыре группы: модели с большими знаниями и высокой надежностью (например, Claude 4.1 Opus), с большими знаниями и низкой надежностью (Claude 4.5 Haiku), с ограниченными знаниями, но стабильной точностью (GPT‑5.1), и малые модели без знаний и надежности (например, gpt‑oss).

Нет данных о лидерстве Gemini 3 Pro по конкретным сферам.

Общая интеллектуальная мощность не всегда соответствует фактической надежности. Так, Minimax M2 и gpt‑oss‑120b (high) отлично справляются в общем рейтинге Artificial Analysis Intelligence Index, но сильно ошибаются по Omniscience Index из-за галлюцинаций.

Зато старая Llama‑3.1‑405B неплохо показала себя именно в новом рейтинге, хотя в старых тестах уступает более современным системам.

Ни одна система не продемонстрировала стабильную точность по всем сферам. Claude 4.1 Opus — лидер в праве, программировании и гуманитарных дисциплинах; GPT‑5.1.1 — в бизнесе; Grok 4 — лучше других в медицине и науке.

Как отмечают авторы, ориентация только на общий результат может скрыть важные пробелы.

Хотя большие модели чаще бывают точнее, очень высоких показателей по снижению ложных ответов у них нет. Некоторые небольшие модели — Nvidia Nemotron Nano 9B V2 и Llama Nemotron Super 49B v1.5 — оказались лучше гигантов в Omniscience Index.

Artificial Analysis подтверждают: точность тесно связана с размером модели, но процент галлюцинаций — нет. Поэтому даже Gemini 3 Pro, несмотря на точность, часто ошибается.

С точки зрения затрат, Claude 4.5 Haiku показывает более высокие баллы Omniscience, чем более дорогие конкуренты вроде GPT‑5.1 (high) и Kimi K2 Thinking.

Для научной поддержки 10% вопросов из бенчмарка стали общедоступными, остальное не публикуется во избежание попадания в обучающие выборки новых ИИ.

Связанные исследования показали и другие слабости старых тестов для ИИ — размытые определения важных понятий (например, “рассуждение”), нерепрезентативную выборку, недостаток статистических проверок между системами.

Источник

Оцените статью
Gimal-Ai