OpenAI представила новый бенчмарк FrontierScience для оценки ИИ на уровне олимпиадных и исследовательских задач. Бенчмарк включает два типа заданий: набор из 100 олимпиадных задач международного уровня и 60 открытых исследовательских вопросов, предлагаемых PhD-учёными.
GPT-5.2 показал лучшие результаты: 77% на олимпиадных задачах и 25% на исследовательских. Для сравнения, Gemini 3 Pro набрал 76% и 20%, Claude Opus 4.5 — 71% и 18%, Grok 4 — 66,2% и 16%. Модель GPT-4o значительно отстаёт — 12% и меньше 1% соответственно.
OpenAI отмечает резкий рост способностей: если в тесте GPQA в 2023 году GPT-4 набрала 39%, то за два года GPT-5.2 вышла на 92%. В компании считают, что старые бенчмарки становятся неактуальными, а быстрый прогресс требует новых тестов.
Большинство задач олимпиадного набора — однозначные числовые или алгебраические ответы. Исследовательские задания требуют глубокого анализа и оцениваются по десятибалльной шкале. Над созданием олимпиадных вопросов работали 42 бывших призёра и тренера международных олимпиад.
Успех моделей напрямую зависит от времени, выделенного на рассуждения. У GPT-5.2 результат вырастает с 67,5% на низкой “интенсивности рассуждений” до 77% на высокой. Для Research-блока оценки увеличиваются с 18 до 25%. Необычно, что модель o3 показала на Research худший результат на высокой интенсивности, что OpenAI называет “неожиданным”.
OpenAI подчеркивает успехи в экспертизе, но отмечает, что проблемы на открытых исследовательских заданиях остаются. Лучшие результаты неизменно получают по химии. Типичные ошибки — логика, частные темы, неверные вычисления и фактологические промахи.
ИИ уже помогает учёным. OpenAI опубликовала кейсы (“GPT-5 Science Acceleration”) — ИИ ускоряет поиск математических доказательств, анализ симметрий в физике и создание гипотез в иммунологии. Физик Стив Хсу отметил: “Это начало совместных гибридных проектов людей и ИИ, которые могут стать стандартом в математике и физике.” Его мнение вызвало споры.
OpenAI планирует создать автономных ИИ-агентов для исследований к 2028 году, чтобы резче увеличить темпы научных открытий. В 2025 году OpenAI и Google DeepMind показали, что новые модели могут сами решать сложные математические задачи без внешних подсказок. Математик Теренс Тао рассказал, что тоже получил помощь от искусственного интеллекта.
Эксперты предупреждают: без критической оценки ИИ может выдавать ошибки под видом научных открытий.






















