Новый AI тест ARC-AGI-2 поднял планку для искусственного интеллекта

ARC-AGI-2

Новая версия теста для ИИ ARC-AGI-2, разработанная Франсуа Шолле и его командой, значительно усложнила задачи для современных систем. Хотя для человека они остаются простыми. Даже самые продвинутые ИИ, такие как OpenAI o3, не справляются.

“Этот тест измеряет не заученные навыки, а общее гибкое мышление,” — пояснил Шолле в X. Тест включает задачи, которые текущие ИИ не могут решить: интерпретация символов, многократное композиционное мышление и зависимое от контекста применение правил.

Тест прошел калибровку на людях: из 400 участников все гонки сохранили лишь решабельные большинством задач. Средний результат — 60 процентов без подготовки, эксперты достигают 100 процентов.

Начальные результаты показывают слабые показатели ИИ. Открытые языковые модели типа GPT-4.5, Claude 3.7 Sonnet и Gemini 2 набрали ноль процентов. Даже с базовым мышлением, модели не превысили один процент.

Отличился OpenAI o3-low, который упал с 75.7 процентов на ARC-AGI-1 до примерно 4 процентов на новом тесте. Победители конкурса ARC Prize 2024, команда ARChitects, продемонстрировали снижение с 53.5 до 3 процентов.

Тест внедрил новую метрику эффективности, оценивая не только умение решать, но и его применение.

“Истинный интеллект заключается в нахождении решений эффективно, а не исчерпывающе”, — подчеркнул Фонд ARC Prize.

Разрыв в эффективности между ИИ и людьми заметен: эксперты решают задачи за $17, в то время как OpenAI o3-low тратит около $200 на задачу с точностью всего в четыре процента.

Конкурс ARC Prize 2025 с наградным фондом в $1 миллион теперь стартовал вместе с тестом. Основной приз составляет $700,000 за точность в 85 процентов. Дополнительные призы составляют $125,000 и $175,000, начавшихся на Kaggle с марта по ноябрь 2025 года.

Даже несмотря на то, что предыдущий тест ARC-AGI-1, выпущенный в 2019 году, считался сложнейшим для ИИ, ни одна из версий не претендует на достижение общего интеллекта.

Источник

Оцените статью
Gimal-Ai