Падение ARC benchmark: последствия ИИ-оптимизации

Стартап Poetiq повысил точность на тесте ARC-AGI-2, достигнув 75% точности с помощью версии OpenAI GPT-5.2 X-High. Это примерно на 15 процентных пунктов выше предыдущего лучшего результата и намного больше среднего уровня человека. Себестоимость одной задачи снизилась до менее $8, что значительно дешевле прежних показателей.

Poetiq отмечает, что вариант X-High оказался дешевле на задачу, потому что модель быстрее находит правильный ответ. Для достижения результата потребовалось изменить подсказку и код — это внутри компании называют “reasoning strategy”. В ближайшее время они планируют опубликовать код.

Poetiq подчеркивает, что GPT-5.2 использовалась без специализрованной дообучки и дополнительных изменений. Представители компании считают результат значительным и по точности, и по стоимости. Есть основания полагать, что GPT-5.2 X-High с системой Poetiq может показать результат выше всех предыдущих решений и на официальном полузакрытом тесте ARC Prize.

Когда некоторые эксперты указывают, что подход заточен под ARC-AGI и может не работать для прикладных задач, в Poetiq отвечают: “Хотя наш решатель ARC-AGI специализирован, основной meta-система Poetiq рассчитана на широкий спектр задач.”

Алгоритм Poetiq направляет модель (в данном случае GPT-5.2) сформировать код для решения каждой задачи. После этого система запускает код, проверяет результат и исправляет ошибки. Несколько независимых запусков объединяются для повышения надежности ответа.

ARC-AGI был создан, чтобы отсеять простое запоминание и проверить способность ИИ к абстрактному мышлению. В течение нескольких лет решать такие головоломки с сетками удавалось лишь людям, а большие языковые модели показывали низкие результаты.

Все изменилось с приходом моделей с отдельными алгоритмами рассуждения и техникой Test-Time Training. Ключевым моментом стал декабрь 2024 года, когда OpenAI o3-preview впервые достигла 75% точности на ARC-AGI-1. Производительность по-настоящему взлетела, а затраты на вычисления стали падать. Так, версия системы Poetiq на GPT-OSS-120B выдает более 40% на ARC-AGI-1 по цене менее одного цента за задачу.

Сейчас высокие баллы касаются только “публичных” датасетов, не полузакрытых наборов ARC. В Poetiq отмечают, что многие языковые модели показывают худшие результаты при переходе с открытого теста на частный. Главная причина — “data contamination”: часть тестов попадает в обучающие выборки больших моделей.

Однако новый набор ARC-AGI-2 может оказаться более защищенным. В компании заявляют, что их система не проходила обучение на ARC-AGI-2, хотя определенная вероятность пересечений остается, так как базовые модели могли видеть похожие задачи.

Основатель ARC-AGI Франсуа Шолле считает, что ситуация меняется: “Результаты reasoning-моделей с явным ростом возможностей ИИ показывают: масштабирование самим количеством данных и размером моделей перестает работать, нужны методы по адаптации на лету.”

Теперь модели способны перестраиваться во время работы — они комбинируют генерацию программ и рассуждение по цепочке, чтобы решать задачи. Шолле уверен: “Решить ARC — это обязательно на пути к AGI, но это ещё не AGI. Текущие модели все равно часто не могут решить базовые задачи и не обладают настоящим пониманием.”

В ответ на давление рынка benchmarks, такие как ARC-AGI-1 и ARC-AGI-2, перестают быть недостижимой целью. Теперь эти тесты — скорее стимулы к дальнейшей оптимизации и маркетингу компаний, которые публикуют лучшие показатели.

Это не значит, что ИИ думает как человек. Современные системы просто научились хорошо решать абстрактные задачи через вычисления, создание синтетических данных и сложные алгоритмы поиска. Прежде высокие планки ARC привели к развитию методик рассуждения и адаптации.

Шолле смотрит дальше: новая версия ARC-AGI-3 будет проверять способность ИИ к действиям в интерактивных сценариях.

Код и результаты Poetiq доступны на GitHub.

Источник

Оцените статью
Gimal-Ai