Google выпустила улучшенную модель Gemini 3.1 Pro

Google представила модель Gemini 3.1 Pro — обновление серии Gemini 3, которое компания описывает как крупный шаг в решении сложных задач. Модель уже доступна в виде предварительного релиза для разработчиков, корпоративных клиентов и частных пользователей.

По данным Google, Gemini 3.1 Pro служит улучшенной базовой моделью, которая также используется в Gemini 3 Deep Think. Deep Think нацелен на сложные задачи в науке, исследованиях и инженерии, а 3.1 Pro должен перенести эти улучшения в более повседневные сценарии.

Компания утверждает, что Gemini 3.1 Pro применяет продвинутые методы рассуждений, чтобы связать сложные API с удобным пользовательским интерфейсом. В качестве примера Google приводит живой аэрокосмический дашборд, где модель сама настроила публичный поток телеметрии для визуализации орбиты Международной космической станции.

В других демонстрациях Gemini 3.1 Pro генерирует анимированные SVG-графики по текстовому запросу для вставки на сайты, а также создаёт полноценные веб-страницы с нуля, выполняя все шаги в виде кода.

Наибольший прирост Google фиксирует на бенчмарке ARC-AGI-2, который оценивает абстрактную логику: Gemini 3.1 Pro набирает 77,1 %, тогда как Gemini 3 Pro показывал 31,1 %. По данным компании, Anthropic Opus 4.6 (68,8 %) и OpenAI GPT-5.2 (52,9 %) заметно отстают на этом тесте.

Gemini 3.1 Pro также лидирует на большинстве других испытаний. На GPQA Diamond, который проверяет научные знания, модель достигает 94,3 %. На агентных бенчмарках MCP Atlas и BrowseComp результаты составляют 69,2 % и 85,9 % соответственно. На SWE-Bench Verified для программирования с использованием инструментов модель показывает 80,6 %, почти сравнявшись с Opus 4.6 (80,8 %).

В тесте LiveCodeBench Pro для соревновательного программирования Gemini 3.1 Pro получает рейтинг Elo 2 887, опережая Gemini 3 Pro (2 439) и GPT-5.2 (2 393). Эти показатели указывают на серьёзный рост возможностей модели в кодинге.

Однако Gemini 3.1 Pro не везде первая. На мультимодальном бенчмарке MMMU Pro прежняя Gemini 3 Pro показывает чуть лучший результат: 81,0 % против 80,5 %. В тесте Humanity’s Last Exam с поддержкой инструментов лидером остаётся Anthropic Opus 4.6 с 53,1 %. Одно из распространённых замечаний к моделям Google — менее эффективная работа с внешними инструментами по сравнению с системами OpenAI и Anthropic.

Google подчёркивает, что бенчмарки показывают только часть реальной картины, особенно при относительно постепенных обновлениях наподобие перехода с 3.0 на 3.1. Компания рекомендует проверять модели на собственных запросах, где заранее понятно, каким должен быть корректный ответ и как с задачей справлялись предыдущие версии.

Gemini 3.1 Pro одновременно выходит сразу на нескольких платформах. Разработчики могут получить доступ через Gemini API, Google AI Studio, Gemini CLI, платформу агентной разработки Google Antigravity и Android Studio. Корпоративные клиенты используют модель через Vertex AI и Gemini Enterprise.

Частным пользователям Gemini 3.1 Pro доступна в приложении Gemini и сервисе NotebookLM, но в последнем она предлагается только подписчикам тарифов Pro и Ultra.

Цены на API зависят от длины запроса и совпадают с тарифами Gemini 3 Pro. По сравнению с моделями Anthropic Opus, использование Gemini обходится существенно дешевле.

Модель пока остаётся в статусе предварительного релиза. Google планирует дорабатывать Gemini 3.1 Pro по итогам отзывов пользователей, в том числе при работе с тем, что компания называет «амбицизными агентными сценариями», а затем выпустить версию с общей доступностью.

Источник: блог Google, The Decoder.

Оцените статью
Gimal-Ai