OpenAI выпустила новую языковую модель GPT-5.1 для API, сохранив прежнюю стоимость по сравнению с GPT-5.
Появились две версии для работы с длинным программным кодом: gpt-5.1-codex и gpt-5.1-codex-mini. Кэширование запросов теперь действует до 24 часов, что ускоряет ответы и уменьшает стоимость при повторных запросах.
По опубликованным OpenAI тестам, GPT-5.1 показывает небольшое улучшение по сравнению с GPT-5. Например, в тесте SWE-bench результат вырос до 76,3% (было 72,8%). Большинство других показателей почти не изменились, что говорит о доработке, а не о глобальных изменениях версии.
Добавлен режим “No Reasoning” — генерация ответов без глубоких рассуждений работает быстрее. В OpenAI отмечают, что этот режим превосходит GPT-5 при “минимальном” рассуждении, особенно для задач с инструментами, выполнением кода и поиском в интернете.
В новой версии появился инструмент “apply_patch” — теперь модель может менять программный код, создавать, изменять и удалять файлы. Shell-инструмент предлагает команды для терминала, которые запускаются и проверяются локально. Это повышает автоматизацию для разработчиков.
GPT-5.1 уже доступен и в ChatGPT. По заявлению OpenAI, модель лучше исполняет инструкции и дает более “теплые” и человечные ответы. Однако это влияет на безопасность: согласно последней оценке OpenAI, более сочувственный стиль местами делает модель менее строгой к чувствительным темам.
У модели GPT-5.1-thinking показатели по темам травли, ненависти, насилия и секс-контента снизились до 7 процентных пунктов. Обе версии стали хуже избегать эмоциональной зависимости; у “instant”-модели показатель опустился с 0,986 до 0,945.
В оценках безопасности теперь есть отдельная категория для психического здоровья. GPT-5.1-thinking выросла с 0,466 до 0,684, но GPT-5.1-instant — снизилась с 0,944 до 0,883. A/B тесты в интернете дали противоречивые результаты, OpenAI предупреждает: “эти данные не имеют статистической значимости”. В итоге, только практика покажет, как обновления скажутся на пользователях.
Что касается защиты, GPT-5.1-instant лучше блокирует попытки взлома, показатель StrongReject вырос с 0,850 до 0,976. Но, как и с другими метриками, лишь реальное использование покажет эффективность.






















