Анализ более 170 000 reasoning-трейсов из открытых моделей искусственного интеллекта показал: при усложнении задач большие языковые модели в основном используют простые, стандартные подходы. Новый каркас из когнитивной науки для описания процессов мышления помогает выявить, каких умений им не хватает и когда дополнительная структура в подсказке действительно помогает.
По информации из исследования “Cognitive Foundations for Reasoning and Their Manifestation in LLMs”, сегодняшние тесты языковых моделей плохо проверяют их умение рассуждать: обычно оценивается только правильность ответа. Авторы пишут: “Обычно остается скрытым, рассуждает ли модель самостоятельно или просто повторяет знакомые шаблоны.”
Чтобы это выяснить, команда проанализировала 171 485 подробных reasoning-трейсов для 17 моделей и сравнила их с 54 “think-aloud” (мыслить вслух) трассировками от людей. Задания охватывали задачи по математике, поиск ошибок, политические и медицинские дилеммы.
Для сравнения трейсингов исследователи выделили 28 повторяющихся элементов мышления и отмечали, когда они появлялись в reasoning-последовательностях.
Результаты показали закономерность: на простых заданиях (например, классические матем. задачи) модели используют разные подходы. Когда задачи становятся менее четкими — например, открытые кейсы или моральные дилеммы — модели сужают стратегию. Они выбирают простую последовательную обработку, проверку правдоподобия и прямое рассуждение от известных фактов.
Статистический анализ выявил, что успешные ответы на сложных задачах чаще связаны с разнообразием структур, иерархией, построением причинных связей, рассуждением от цели и переосмыслением задачи. Такие методы чаще встречаются у людей. Люди описывают свой подход, проверяют промежуточные результаты и гибко меняют стратегии.
Пример из статьи: при решении логической задачи с шахматной доской человек находит абстрактный аргумент по цветам, а DeepSeek-R1 перебирает тысячи координат, меняет гипотезы, пока не приходит к итоговому решению.
Для задания по реформе здравоохранения человек делит задачу на подцели, обозначает стратегию, оценивает источники, выделяет главное, абстрагирует обобщение, отмечает неожиданный результат. DeepSeek-R1 тоже дробит задачу, но почти не меняет стратегию и редко показывает саморефлексию.
На всех задачах картина одинакова: люди чаще используют метапознание и абстракции, а LLM — длинные, повторяющиеся линейные рассуждения.
Неясно, характерно ли это для коммерческих моделей компаний вроде OpenAI: авторы отмечают, что открытые модели учатся на автогенерируемых reasoning-трейсах, что ведет к шаблонному, последовательному стилю. Как поведут себя модели, обученные на людских reasoning-данных, исследование не показывает.
Команда проверила, можно ли лучшие reasoning-стратегии переложить на инструкции для промптинга. Многие модели (например, Qwen3-14B/32B, R1-Distill-Qwen-14B/32B и др.) значительно повысили точность — в отдельных случаях прирост составил более 20%, а на дилеммах и анализе кейсов — до 60%. Больше всего выиграли задачи с размытыми условиями: дилеммы, диагноз-решение, разбор ситуаций.
Для небольших или слабых моделей эффект оказался обратным: Hermes-3-Llama-3-8B и DeepScaleR-1.5B показали серьезное снижение точности, в отдельных случаях до 70%. Для других — R1-Distill-Qwen-7B, OpenThinker-32B — результаты оказались смешанными.
Авторы приходят к выводу, что подход к обучению с подробной когнитивной структурой работает только у моделей с развитыми навыками рассуждения и выполнения инструкций. Подсказки не помогают на хорошо структурированных задачах и могут даже мешать привычным стратегиям. Точно неясно, раскрывают ли такие инструкции скрытый потенциал или просто оптимизируют знакомые паттерны.
Мета-анализ 1 598 статей показывает: LLM-исследования в основном фокусируются на пошаговых объяснениях и делении задач, а метапознание, организация пространства и времени почти не изучаются.
В целом, исследователи отмечают: область полагается на узкую, линейную структуру, упуская важные когнитивные явления.
Они выделяют несколько проблем и возможностей. Во-первых, сейчас нет теорий, связывающих способы обучения моделей с появлением у них когнитивных умений. Психология утверждает: процедурные навыки формируются повторением, а метапознание возникает только в результате осмысления мышления. Стандартные RL-методы скорее усиливают проверки, чем самонаблюдение или смену стратегий.
Во-вторых, видно, что LLM хорошо справляются с четкими задачами (истории, факты), но слабо проявляют себя на сложноструктурированных заданиях (проектирование, диагностика).
В-третьих, шаги рассуждения, генерируемые моделью, не гарантируют реального понимания. Нужны тесты на перенос знаний и разбор внутренних процессов моделей.
В-четвертых, авторы предлагают использовать их когнитивную карту для продуманного обучения: например, настраивать RL так, чтобы поощрять редкие, но нужные стили (переформулирование, метапознание).
Исследователи планируют выложить свой код и данные на GitHub и Hugging Face.






















