Японская компания Sakana AI разработала агента искусственного интеллекта, который решает сложные задачи оптимизации, часто встречающиеся на производстве. На соревновании AtCoder Heuristic Contest среди более чем 1000 программистов их ИИ занял 21-е место.
Агент Sakana AI, названный ALE, доказал, что ИИ может конкурировать с экспертами в сложных задачах программирования. Участники AtCoder сталкиваются с задачами, которые требуют непростых решений: прокладка маршрутов доставки, составление графиков смен, управление производством и энергетикой. Люди обычно тратят на такие задачи недели исправлений и экспериментов.
Работа Sakana AI использует ALE-Bench — первый бенчмарк для алгоритмического программирования с акцентом на постепенное улучшение решения. В тестах используются 40 сложных задач с прошлых конкурсов AtCoder. В отличие от стандартных тестов с ответами «правильно/неправильно», здесь нужно постоянно улучшать результаты.
Агент ALE работает на Google Gemini 2.5 Pro и объединяет два подхода. Во-первых, в инструкциях используются проверенные методы, например, имитация отжига для обхода «тупиковых» вариантов. Во-вторых, применяется алгоритм поиска лучших решений (best-first search) с расширением — одновременно развиваются 30 возможных вариантов, а специальный механизм запоминает уже проверенные пути, чтобы не повторяться.
В тестах лучший вариант агента (o4-mini-high) получил 1411 баллов. Для сравнения: GPT-4.1 mini набрал 1016, Deepseek-R1 — 1150, а Gemini 2.5 Pro — 1198 очков. Полная версия ALE собрала 1879 баллов и вошла в топ-6,8% всех участников. На одной задаче агент получил 2880 баллов, что в оригинальном конкурсе дало бы 5-е место.
Уникальная черта ИИ — скорость и количество вариантов. За четыре часа, пока человек проверяет дюжину идей, ИИ опробует до 100 разных версий и сгенерирует сотни или тысячи потенциальных решений.
ALE-Bench теперь доступен как библиотека Python с «песочницей» для безопасных экспериментов. Поддерживаются C++, Python и Rust на стандартной облачной инфраструктуре Amazon. Бенчмарк создан вместе с AtCoder Inc., данные 40 задач размещены на Hugging Face, а код — в открытом доступе на GitHub.