Исследователь OpenAI Джерри Творек рассказал о новом ИИ-моделе, которая может показать заметный скачок производительности в ряде задач.
Эта система получила неофициальное название “IMO gold medal winner”. По словам Творека, сейчас идет активная работа над улучшенной версией, которую планируют выпустить для широкой публики в ближайшие месяцы.
Когда критик OpenAI Гэри Маркус спросил Творека, предназначена ли новая модель для замены GPT-5.x или как узкопрофильный инструмент, тот ответил, что OpenAI не выпускает узконаправленные модели: «Публичные релизы теперь требуют высокого уровня качества». При этом Творек уточнил: «Эта модель, конечно, не решит все ограничения современных языковых моделей – только некоторые».
Способность этой модели выходить за рамки математики вызвала обсуждения. На презентации OpenAI отметила, что оптимизация под Международную математическую олимпиаду была минимальной. Модель не заточена только под математику; она основана на усовершенствованиях в обучении с подкреплением и вычислениях, не используя сторонние инструменты (например, кодовые интерпретаторы). Вся работа строится только на естественном языке.
Этот подход важен, потому что обучение с подкреплением до сих пор испытывает трудности в задачах без однозначных ответов. Многие ученые считают это нерешенной проблемой. Прорыв в этой сфере подтвердил бы идею, что развитие моделей рассуждения оправдывает большие вычислительные затраты.
Бывший исследователь OpenAI и Tesla Андрей Карпати считает: главная проблема нового программирования — не в том, насколько задача понятна, а в том, насколько легко проверить результат. Он пишет: «Чем проще верифицировать задачу, тем проще ее автоматизировать в новой парадигме программирования. Иначе остается только надеяться на ‘волшебство’ генерализации нейросетей или прибегать к подражанию».
Он же отмечает: Software 1.0 легко автоматизирует то, что можно описать, а Software 2.0 — то, что можно проверить. Поэтому такие направления, как математика и программирование, стремительно развиваются — иногда даже опережая специалистов. А в сферах, где нет четкой проверки, прогресс замедлился.
Вывод Творека и Карпати совпадает: модель IMO доказывает, что задачи с четкой проверкой можно масштабировать через методы рассуждения. Но в других случаях ученым остается надеяться, что нейросети смогут правильно обобщать за пределами своих исходных данных.
Даже если модели начнут опережать людей в таких сферах, как математика, большинство пользователей этого не заметит. Выгоду получат исследователи в направлениях, связанных с доказательствами, задачами оптимизации или проектированием новых моделей.
Недавно OpenAI заявила: пользователи всё чаще не замечают реальных улучшений качества моделей, потому что обычные задачи обработки языка стали слишком простыми для LLM, несмотря на известные ограничения (например, галлюцинации или ошибки).






















