GPT-5.2 обошёл Gemini 3 в AI-бенчмарках

OpenAI выпустила модель GPT-5.2 всего через месяц после запуска GPT-5.1. Генеральный директор OpenAI Сэм Альтман прокомментировал новинку коротко: “Мы прошли большой путь с момента GPT-5.1”.

Компания называет GPT-5.2 самой продвинутой серией моделей для профессиональных задач. Возможны три варианта: GPT-5.2 Instant для быстрых задач, GPT-5.2 Thinking для более сложных вычислений и GPT-5.2 Pro для самых требовательных запросов.

В тестах GPT-5.2 показывает идентичные или лучшие результаты по сравнению с Google Gemini 3 Pro: особенно модель выделяется по кодингу (тест SWE-Verified) и абстрактному мышлению (ARC-AGI-2). По информации компании, соперничество с Google ускорило запуск.

В GDPval, который проверяет умение ИИ справляться с профессиональной работой, GPT-5.2 Thinking набрала 70,9%. Для сравнения, предыдущая версия GPT-5 Thinking набрала 38,8%. OpenAI подчеркивает: “Это первая модель, достигшая или превысившая уровень эксперта в четко поставленных задачах”.

По заявлению OpenAI, модель работает более чем в 11 раз быстрее и менее чем за 1% стоимости услуг экспертов. Внутренний тест для инвестиционного банкинга показал рост средней оценки с 59,1% до 68,4%.

В программировании GPT-5.2 Thinking тоже лидирует: в SWE-Bench Pro набрала 55,6% против 50,8% у GPT-5.1, в SWE-bench Verified — 80% против 76,3%.

OpenAI сообщает о снижении ошибок на 30%: доля ответов с хотя бы одной ошибкой упала с 8,8% (GPT-5.1 Thinking) до 6,2% (GPT-5.2 Thinking). Тестирование велось на максимальных настройках рассуждения и с внешним поиском.

В OpenAI отмечают: вероятность ошибки ниже для отдельных фактов, но выше для длинных ответов. Компания напоминает, что GPT-5.2 Thinking не совершенна, и просит сверять полученные данные.

GPT-5.2 Thinking первой почти безошибочно прошла тест 4-Needle MRCR на 256 000 токенов. Это важно для работы с большими текстами: анализ контрактов, научных публикаций, транскрипций.

Анализ изображений стал точнее: ошибки уменьшены вдвое. Точность по CharXiv выросла с 80,3% до 88,7%; по ScreenSpot-Pro (понимание интерфейсов) — с 64,2% до 86,3%.

В использовании внешних сервисов (tool calling) GPT-5.2 Thinking набрала 98,7% против 95,6% у предыдущей версии (тест Tau2-bench-Telecom с имитацией поддержки клиентов).

В абстрактных задачах (ARC-AGI-2) GPT-5.2 Thinking показала 52,9% против 17,6% у GPT-5.1 и заметно опередила Gemini 3 Pro, которая на запуске выдала 31,1%.

Модель GPT-5.2 Pro прошла порог 90% на простом тесте ARC-AGI-1 (90,5%) и делает это почти в 390 раз дешевле модели o3-preview 2024 года (по данным OpenAI).

Однако обе версии до сих пор уступают системе Poetiq, где используются сразу несколько моделей, включая открытые и коммерческие (Gemini 3, GPT-5.1).

Важно: бенчмарки не всегда отражают картину полностью. Уже GPT-5.1 Thinking хорошо справлялась со сложным поиском и анализом. Если показатели 5.2 подтвердятся, мнения о якобы отстающей OpenAI могут измениться.

Цены API выросли. GPT-5.2 стоит $1,75 за миллион входных токенов и $14 за миллион выходных против $1,25/$10 у GPT-5.1. К сохранённым входам действует скидка 90%. Pro-версия стоит еще дороже: $21 за вход и $168 за выход (за миллион токенов).

Теперь OpenAI почти сравнялась с ценами Gemini 3 Pro — $2/$12 за миллион токенов. Anthropic с моделью Opus 4.5 остаётся самой дорогой — $5 за вход и $25 за выход.

Компания объясняет: рост цен компенсируется эффективностью, а общая стоимость решений может даже снизиться за счёт улучшения модели.

GPT-5.2 уже доступна подписчикам ChatGPT Plus, Pro и Enterprise. GPT-5.1 останется как “ветеранская” версия ещё три месяца. Для разработчиков иных изменений пока не планируется — GPT-5.1, GPT-5 и GPT-4.1 доступны как раньше.

Источник

Оцените статью
Gimal-Ai