Новая версия теста для ИИ ARC-AGI-2, разработанная Франсуа Шолле и его командой, значительно усложнила задачи для современных систем. Хотя для человека они остаются простыми. Даже самые продвинутые ИИ, такие как OpenAI o3, не справляются.
“Этот тест измеряет не заученные навыки, а общее гибкое мышление,” — пояснил Шолле в X. Тест включает задачи, которые текущие ИИ не могут решить: интерпретация символов, многократное композиционное мышление и зависимое от контекста применение правил.
Тест прошел калибровку на людях: из 400 участников все гонки сохранили лишь решабельные большинством задач. Средний результат — 60 процентов без подготовки, эксперты достигают 100 процентов.
Начальные результаты показывают слабые показатели ИИ. Открытые языковые модели типа GPT-4.5, Claude 3.7 Sonnet и Gemini 2 набрали ноль процентов. Даже с базовым мышлением, модели не превысили один процент.
Отличился OpenAI o3-low, который упал с 75.7 процентов на ARC-AGI-1 до примерно 4 процентов на новом тесте. Победители конкурса ARC Prize 2024, команда ARChitects, продемонстрировали снижение с 53.5 до 3 процентов.
Тест внедрил новую метрику эффективности, оценивая не только умение решать, но и его применение.
“Истинный интеллект заключается в нахождении решений эффективно, а не исчерпывающе”, — подчеркнул Фонд ARC Prize.
Разрыв в эффективности между ИИ и людьми заметен: эксперты решают задачи за $17, в то время как OpenAI o3-low тратит около $200 на задачу с точностью всего в четыре процента.
Конкурс ARC Prize 2025 с наградным фондом в $1 миллион теперь стартовал вместе с тестом. Основной приз составляет $700,000 за точность в 85 процентов. Дополнительные призы составляют $125,000 и $175,000, начавшихся на Kaggle с марта по ноябрь 2025 года.
Даже несмотря на то, что предыдущий тест ARC-AGI-1, выпущенный в 2019 году, считался сложнейшим для ИИ, ни одна из версий не претендует на достижение общего интеллекта.