Исследование подтверждает сомнения Apple в ИИ рассуждениях

Исследователи Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест для оценки того, насколько хорошо большие языковые модели (LLM) понимают и выполняют сложные многошаговые инструкции.

В тесте RELIC ИИ получает формальное описание искусственного языка в виде набора строгих правил и последовательность символов. Задача: решить, соответствует ли эта последовательность правилам. Важно, что модели не дают примеры правильных или неправильных ответов и не обучают на таких грамматиках — она решает всё только на основе описания.

Для успеха модель должна правильно применять правила, иногда многократно и в разных комбинациях. По словам авторов, задача похожа на проверку кода на корректность или грамматику в языке. RELIC автоматически генерирует большое число уникальных задач разной сложности, чтобы исключить угадывание за счет запоминания.

Команда протестировала восемь ИИ, среди которых GPT-4.1 и o3 от OpenAI, Gemma от Google, DeepSeek-R1. Учёные собрали набор задач RELIC-500: 200 уникальных грамматик, до 500 правил в каждой, цепочки до 50 символов. Даже самые сложные задачи здесь проще настоящих языков программирования или человеческой речи.

Модели хорошо справлялись с простыми грамматиками и короткими строками. Но при усложнении заданий точность резко падала — даже у систем, специально созданных для таких задач. Главный вывод: даже если модель “знает”, как решать задачу шаг за шагом, применять это знание она умеет не всегда.

Для простых заданий правило обычно применялось правильно. На сложных — ИИ перехватывался на упрощённые стратегии; например, отмечал цепочку как верную только из-за её длины, либо искал совпадения отдельных символов, игнорируя порядок.

Ход работы моделей дополнительно оценивал другой ИИ — OpenAI o4-mini. По данным авторов, его суждения совпадали с мнением людей примерно на 70%, он хорошо выявлял поверхностные (ускоренные) решения.

Анализ показал: на коротких строках модель старалась логически строить пошаговое решение (“дерево разбора”). На длинных — переходила к более поверхностным механизмам.

Авторы выводят ключевую проблему: связь между сложностью задания и числом промежуточных шагов, которые модель делает при решении (часто называемые “test-time compute”). Теоретически, их должно быть больше при увеличении длины строки. На практике — наоборот: на коротких задачах шагов больше, на длинных сложных — меньше.

Иными словами, ИИ сокращает рассуждение ещё до настоящего анализа структуры. Такой “недоразбор” ранее наблюдали и специалисты Apple: у их ИИ меньше размышлений, когда задача сложнее.

Авторы обеих работ подчёркивают: современные ИИ хорошо решают только простые задачи и с ростом сложности переходят к поверхностным подходам. RELIC проверяет умение осваивать новые языки и системы правил на лету, используя только текущее описание, что критично важно для настоящего ИИ.

В отличие от “игровых” бенчмарков вроде “иголки в стоге сена,” в RELIC правила разбросаны по тексту и требуют сложной комбинации.

По мнению авторов, чтобы модели научились решать такие задачи, понадобятся либо гораздо больше вычислений, либо новые способы решения. “Если нынешние модели не справляются, нам нужны более сильные. Это не значит, что LLM не умеют рассуждать или глубокое обучение не работает. Просто их способность к рассуждению пока ограничена, и это нужно улучшать,” — сказал соавтор Тал Линзен.

Источник

Оцените статью
Gimal-Ai