OpenAI представила GPT-5.3-Codex-Spark — уменьшенную версию модели GPT-5.3 Codex для программирования в режиме реального времени. Модель работает на чипах Cerebras и генерирует более 1000 токенов в секунду.
Codex-Spark стал первым продуктом в рамках партнёрства OpenAI и Cerebras, о котором объявили в январе. Модель запущена на ускорителе Cerebras Wafer Scale Engine 3, созданном для быстрого выполнения запросов (инференса).
Ранний доступ к Codex-Spark открыт для пользователей ChatGPT Pro через приложение Codex, интерфейс командной строки и расширение для VS Code. OpenAI планирует расширять доступ в ближайшие недели. Поскольку модель работает на специализированном оборудовании, действуют отдельные лимиты на запросы, которые компания может менять при высокой нагрузке.
Крупные модели OpenAI, такие как недавно выпущенный GPT-5.3-Codex, рассчитаны на автономное выполнение сложных задач, которые могут занимать минуты или часы. Codex-Spark оптимизирован для интерактивной работы, где важна задержка ответа. По данным OpenAI, разработчики могут прерывать и перенаправлять модель в реальном времени и сразу видеть результат.
По словам OpenAI, Codex-Spark настроен достаточно осторожно. В сравнении с большими моделями он по умолчанию вносит минимальные и прицельные изменения и не запускает автоматические тесты, если об этом явно не попросить. Контекстное окно модели составляет 128k токенов, она работает только с текстом.
OpenAI заявляет, что Codex-Spark показывает высокие результаты на бенчмарках SWE-Bench Pro и Terminal-Bench 2.0, которые оценивают возможности агентных систем для разработки ПО, но при этом завершает задачи значительно быстрее, чем GPT-5.3-Codex. На SWE-Bench Pro Codex-Spark достигает сопоставимой точности за 2–3 минуты, тогда как GPT-5.3-Codex требуется около 15–17 минут.
На тесте Terminal-Bench 2.0 Codex-Spark набирает 58,4% точности. Большая модель GPT-5.3-Codex достигает 77,3%, а более старая GPT-5.1-Codex-mini — 46,1%. Обе меньшие модели жертвуют частью точности ради скорости.
Создание Codex-Spark потребовало от OpenAI ускорить не только саму модель. Чтобы выйти на заданные задержки, компания переписала ключевые части стека инференса, упростила поток ответов между клиентом и сервером и переработала запуск сессий, чтобы первый токен появлялся быстрее. В результате, по данным OpenAI, накладные задержки на один запрос снизились на 80%, накладные задержки на токен — на 30%, а время до появления первого токена сократилось вдвое. Эти улучшения уже действуют для Codex-Spark и вскоре будут распространяться на все модели.
В OpenAI отмечают, что Codex-Spark — первый представитель запланированной линейки «ультра-быстрых» моделей. Компания обещает добавить новые возможности, включая более крупные модели, расширенные контекстные окна и поддержку мультимодального ввода.
В долгосрочной перспективе OpenAI развивает для Codex две взаимодополняющие схемы работы: режим для длительных рассуждений и автономного выполнения задач и режим для совместной работы в реальном времени. Компания планирует со временем объединить их, чтобы разработчики оставались в быстром интерактивном цикле, а более долгие задачи передавались вспомогательным агентам или распределялись между несколькими моделями, работающими параллельно.
Источник: OpenAI / The Decoder






















