OpenAI обновила свой Preparedness Framework — внутренние правила, по которым компания оценивает безопасность ИИ-моделей и определяет, нужны ли дополнительные меры предосторожности на этапе разработки и запуска.
В компании заявили, что могут корректировать свои требования, если конкурирующая лаборатория выпустит высокорискованную ИИ-систему без аналогичных защит.
Это связано с растущим давлением — коммерческие разработчики стараются быстрее выводить продукты на рынок. OpenAI критиковали за снижение стандартов ради скорости и за задержки с публикацией отчетов по проверкам безопасности.
OpenAI уточнила: «Если другой разработчик передового ИИ выпустит высокорискованную систему без сопоставимых мер защиты, мы можем скорректировать наши требования. Однако сначала мы тщательно убедимся, что уровень риска действительно изменился, публично объявим об изменениях, оценим, что они не повышают риск серьезного вреда, и всё равно оставим наши меры защиты более серьезными».
В новом фреймворке OpenAI делает ставку на автоматическую проверку для ускорения тестирования, хотя отказа от ручных проверок нет. Компания отмечает: создано всё больше автоматизированных инструментов, чтобы соответствовать быстрому темпу выпуска моделей.
По данным Financial Times, на тесты безопасности одной из новых крупных моделей OpenAI выделила менее недели — гораздо меньше, чем раньше. Источники утверждают, что проверки часто проводят на более ранних версиях моделей (до публичного релиза).
Изменения также касаются оценки рисков: теперь компания фокусируется на двух категориях — «высокая» и «критическая» способность.
- Высокая способность — модель может усилить уже существующие риски серьезного вреда.
- Критическая способность — модель может создать новые, ранее невиданные риски серьезного вреда.
Для обеих категорий компании нужны меры предосторожности до запуска, а для «критической» — и во время разработки.
Это первое обновление Preparedness Framework с 2023 года.