OpenAI признала, что полностью защититься от prompt injection — атак через подставные инструкции в тексте — возможно не получится никогда. Компания заявила, что “оптимистично” смотрит на возможность со временем снизить риски подобных атак.
OpenAI выпустила обновление безопасности для браузерного агента в ChatGPT Atlas. Оно включает новую модель, обученную противодействовать атакам, и улучшенные защитные механизмы. Обновление появилось после обнаружения нового класса атак prompt injection благодаря внутреннему автоматическому тестированию OpenAI.
Агентский режим ChatGPT Atlas — одна из самых продвинутых функций OpenAI. Этот агент может просматривать сайты и имитировать действия пользователя: кликать, печатать. Из-за этого он становится легкой мишенью для атак через текст. Аналогично подвержены атакам и такие решения, как Deep Research в ChatGPT. Федеральное ведомство безопасности информации Германии уже выпустило предупреждение об этих угрозах.
Prompt injection позволяет встроенными командами менять поведение ИИ-агента в интересах злоумышленника. Такие атаки потенциально возможны везде, где языковые модели читают текст: почта, вложения, календари, общие документы, форумы, посты и сайты.
Поскольку агент может совершать действия пользователя, успешная атака создает риск, например, отправить рабочие письма, перевести деньги или удалить файлы в облаке.
В качестве примера OpenAI описала следующую атаку: злоумышленник отправляет на почту пользователя письмо с внедрённой инструкцией. Когда пользователь просит агента “настроить автоответчик”, агент находит это письмо и вместо простой настройки отправляет заявление об увольнении на имя руководителя пользователя — следуя скрытым командам из сообщения.
После обновления ChatGPT Atlas распознаёт такие инструкции и переспрашивает пользователя, прежде чем что-то делать.
Для этой защиты OpenAI создала автоматического “атакующего” на основе своей языковой модели с обучением с подкреплением. Такой атакующий постоянно учится: генерирует инструкции-атаки, тестирует их на специальном симуляторе, анализирует результат и совершенствует новые попытки.
OpenAI объяснила выбор усиленного обучения так: метод подходит для задач с редкими успехами, максимально использует возможности современных моделей и имитирует работу настоящих злоумышленников.
Когда автоматический атакующий находит новую успешную атаку, команда дорабатывает защиту агента. OpenAI регулярно проводит повторное обучение модели, чтобы агенты научились отражать актуальные угрозы.
OpenAI признаёт: детерминированные гарантии безопасности при prompt injection невозможны. Это долгосрочная задача, которая «потребует годы работы».
Тем не менее, компания уверена, что быстрый цикл внедрения защиты после нахождения атак поможет снизить реальные риски. Цель — чтобы пользователи воспринимали агента ChatGPT как “очень компетентного и внимательного к безопасности коллегу или друга”.
Пользователям OpenAI советует: использовать режим без авторизации, внимательно читать запросы на подтверждение и давать агенту точные инструкции вместо общих фраз вроде “разбери мою почту”.
OpenAI сравнивает prompt injection с онлайн-мошенничеством и приёмами социальной инженерии, добавляя: эти угрозы “никогда не были полностью решены”. Однако эта аналогия некорректна: если фишинг и обман базируются на ошибках пользователей, prompt injection — это технический недостаток языка моделей, из-за которого ИИ не различает хорошие и вредоносные команды. Проблема не решена ещё со времён GPT-3.
Пока этот недостаток не устранён, использовать ИИ-агентов для деликатных задач (банк, секретные документы) небезопасно. Надёжная автоматизация покупок или поручений между ИИ тоже выглядит рискованной. Пример других разработчиков — модель Anthropic Claude Opus 4.5 — показывает: почти в одном случае из трёх агент успешно атакуется вредоносной инструкцией.






















