OpenAI и Paradigm запустили бенчмарк EVMbench

OpenAI и инвестиционная компания в криптосфере Paradigm представили EVMbench — бенчмарк для оценки того, насколько хорошо ИИ-агенты умеют находить, исправлять и использовать уязвимости в смарт-контрактах Ethereum. Набор данных включает 120 уязвимостей, выделенных из 40 реальных аудитов безопасности.

В наиболее приближённом к практике сценарии ИИ-агенты работают с локальной блокчейн-сетью и должны проводить атаки полностью самостоятельно, без подсказок человека.

Лучший результат по эксплуатации уязвимостей показала модель GPT-5.3-Codex: она смогла успешно использовать 72% уязвимостей и исправить 41,5%. По обнаружению проблем лидером стала Claude Opus 4.6, которая достигла 45,6% по метрике детектирования.

Исследователи отмечают, что главное препятствие для ИИ-агентов — не использование или исправление уязвимостей, а именно поиск ошибок в больших кодовых базах. Когда агентам давали подсказки о том, где примерно находится проблема, доля успешных атак выросла с 63% до 96%, а доля успешных исправлений — с 39% до 94%.

По оценке авторов работы, на данный момент в смарт-контрактах заблокировано более 100 млрд долларов. Они видят здесь как шанс повысить уровень кибербезопасности с помощью ИИ, так и растущий риск, если такие инструменты окажутся у злоумышленников.

Источник: материалы OpenAI и Paradigm.

Оцените статью
Gimal-Ai