Gemini 3 Pro и GPT-5 не справляются с задачами по физике

Создан новый бенчмарк по физике CritPt, который проверяет ведущие ИИ на уровне начального этапа аспирантуры. Тест показал: даже такие системы, как Gemini 3 Pro и GPT-5, сильно уступают реально самостоятельным учёным.

Более 50 физиков из 30 учреждений разработали CritPt, чтобы понять, может ли ИИ реально помогать в исследованиях по современной физике. Здесь не просто проверяется знание учебника — модели решают оригинальные, ранее не публиковавшиеся задачи, похожие на работу для студентов, начинающих свою исследовательскую деятельность.

Ранние результаты оказались показательными. Gemini 3 Pro Preview от Google показал только 9,1% точности, несмотря на расход 10% меньшего количества токенов, чем у GPT-5.1 (high) от OpenAI, который занял второе место с результатом 4,9%. Даже лучшие ИИ-системы провалили большинство заданий.

Бенчмарк охватывает 71 исследовательское задание по 11 направлениям физики: квантовая физика, астрофизика, физика высоких энергий, биофизика и другие. Для предотвращения угадывания каждая задача строится на неопубликованном материале, а для анализа результатов используется разбивка на 190 “чекпоинтов” — небольших подзадач.

Авторы отмечают: крупные языковые модели явно не обладают требуемой строгостью, креативностью и точностью для самостоятельного решения открытых задач по физике. Однако системы работают лучше на простых, чётко определённых подзадачах — значит, их применение возможно в роли вспомогательных инструментов.

Ещё один критерий — “consistently solved rate” (успешное решение задачи 4 из 5 раз) — показывает, что стабильность у моделей минимальна даже на задачах, которые иногда решаются правильно.

Отсутствие стабильности может вызвать серьёзные проблемы — модели часто выдают убедительные, но ошибочные ответы, что может запутать исследователей и требует тщательной перепроверки.

Исследователи отмечают: задача замены учёного на “ИИ-учёного” пока недостижима, а более реальная цель — создать ИИ-помощника для автоматизации конкретных рутинных операций. Такое представление совпадает с текущими планами индустрии: OpenAI хочет запустить систему “исследовательский стажёр” к сентябрю 2026 года и полностью автономную систему к марту 2028 года. В компании добавили, что GPT-5 уже экономит время исследователей.

Источник

Оцените статью
Gimal-Ai