OpenAI установила новую систему контроля для своих моделей искусственного интеллекта o3 и o4-mini. Эта система следит за тем, чтобы ИИ не давал советы, которые могут помочь в создании биологических и химических угроз. Об этом говорится в обновленном отчете по безопасности компании.
По данным OpenAI, o3 и o4-mini сильнее предыдущих моделей и могут представлять дополнительные риски при неправильном использовании. Внутренние тесты показали: o3 лучше отвечает на вопросы, связанные с созданием биологических угроз, чем предыдущие версии.
Чтобы предотвратить такие сценарии, OpenAI разработала “монитор рассуждений”, который анализирует запросы пользователей и блокирует опасные. В этом мониторинге заложен учет политики компании по контенту.
Перед запуском более тысячи часов было потрачено на отметку “небезопасных” диалогов с новыми моделями. В тестах система отказала в ответе на опасные запросы в 98,7% случаев.
Однако компания отмечает, что люди могут пробовать обходить систему, поэтому мониторинг продолжают дополнительно проверять специалисты. OpenAI заявила, что o3 и o4-mini пока не достигли “высокого риска”, но они уже показали большую полезность для сложных вопросов по созданию биологических угроз по сравнению с o1 и GPT-4.
OpenAI активно анализирует, могут ли их ИИ облегчить создание химических и биологических угроз; это указано в новой версии Preparedness Framework.
Компания использует автоматические инструменты для защиты в разных моделях. Например, генератор изображений GPT-4o имеет аналогичный reasoning-монитор, чтобы не допускать создания вредного или запрещённого контента.
Несмотря на меры, исследователи отмечают недостаточное внимание к безопасности. Например, партнёр по тестированию Metr сообщил, что на тесты у них было мало времени. Также OpenAI не выпускает отдельный отчет по безопасности для GPT-4.1, который вышел на этой неделе.