OpenAI представила gpt-oss-safeguard — новый набор моделей с открытым исходным кодом для гибкой классификации безопасности.
Модели доступны в двух версиях: 120b и 20b. Их можно свободно использовать и изменять по лицензии Apache 2.0.
В отличие от обычных классификаторов, которые требуют повторного обучения при изменении правил безопасности, gpt-oss-safeguard способен интерпретировать политики в реальном времени. Как отмечают в OpenAI, это даёт возможность компаниям мгновенно менять свои правила без переобучения самого инструмента.
Создатели заявляют, что модели более прозрачны в работе. Разработчики могут видеть, каким образом принимаются решения, что упрощает аудит и понимание применения правил безопасности.
gpt-oss-safeguard создан на базе открытого gpt-oss и связан с проектом ROOST — платформой с открытым кодом для создания инструментов и инфраструктуры ИИ-безопасности и управления.





















