OpenAI внедрила систему мониторинга для защиты от угроз биологического и химического характера

OpenAI установила новую систему контроля для своих моделей искусственного интеллекта o3 и o4-mini. Эта система следит за тем, чтобы ИИ не давал советы, которые могут помочь в создании биологических и химических угроз. Об этом говорится в обновленном отчете по безопасности компании.

По данным OpenAI, o3 и o4-mini сильнее предыдущих моделей и могут представлять дополнительные риски при неправильном использовании. Внутренние тесты показали: o3 лучше отвечает на вопросы, связанные с созданием биологических угроз, чем предыдущие версии.

Чтобы предотвратить такие сценарии, OpenAI разработала “монитор рассуждений”, который анализирует запросы пользователей и блокирует опасные. В этом мониторинге заложен учет политики компании по контенту.

Перед запуском более тысячи часов было потрачено на отметку “небезопасных” диалогов с новыми моделями. В тестах система отказала в ответе на опасные запросы в 98,7% случаев.

Однако компания отмечает, что люди могут пробовать обходить систему, поэтому мониторинг продолжают дополнительно проверять специалисты. OpenAI заявила, что o3 и o4-mini пока не достигли “высокого риска”, но они уже показали большую полезность для сложных вопросов по созданию биологических угроз по сравнению с o1 и GPT-4.

OpenAI активно анализирует, могут ли их ИИ облегчить создание химических и биологических угроз; это указано в новой версии Preparedness Framework.

Компания использует автоматические инструменты для защиты в разных моделях. Например, генератор изображений GPT-4o имеет аналогичный reasoning-монитор, чтобы не допускать создания вредного или запрещённого контента.

Несмотря на меры, исследователи отмечают недостаточное внимание к безопасности. Например, партнёр по тестированию Metr сообщил, что на тесты у них было мало времени. Также OpenAI не выпускает отдельный отчет по безопасности для GPT-4.1, который вышел на этой неделе.

Источник

Оцените статью
Gimal-Ai