Недавняя научная работа Apple под названием “The Illusion of Thinking” вновь вызвала споры о способности крупных языковых моделей к рассуждению.
Исследователи Apple протестировали ведущие языковые модели на классических логических задачах, таких как “Башня Ханой”. Оказалось, что даже самые современные модели плохо справляются с выполнением простых алгоритмов без ошибок. Авторы утверждают, что у LLM нет настоящего обобщённого мышления — они лишь повторяют шаблоны, не видя глубже лежащих структур.
Другие исследователи приходят к похожим выводам: похожее исследование пришло к менее критичным, но схожим результатам, а работа Salesforce показала, что способности LLM резко снижаются в более сложных задачах с несколькими шагами — например, в CRM-сценариях.
Скептики LLM считают эти публикации подтверждением своих сомнений в том, что такие модели способны на настоящее рассуждение, и опасаются, что это может затормозить развитие ИИ. Однако некоторые специалисты спорят с этим, отмечая, что выводы слишком упрощённые.
Лоуренс Чан из Metr добавил мнение на LessWrong: “Сводить спор к выбору между настоящим мышлением и простым запоминанием неправильно — и человеческое, и машинное мышление часто используют что-то среднее“. Он объясняет, что люди ловят мяч не с помощью формул, а благодаря наработанному опыту — такие “короткие пути” позволяют решать задачи быстрее.
Языковые модели, по мнению Чана, тоже опираются на опыт и абстракцию в условиях ограниченных ресурсов. Генерализацию, он отмечает, можно рассматривать как форму усложнённого запоминания: сначала идут отдельные примеры, затем — шаблоны, а потом появляются общие правила.
Чан отмечает, что хотя LLM не смогут вручную расписать 32 000 шагов для 15-дисковой “Башни Ханой” в нужном формате, они легко создадут Python-скрипт для решения всей задачи “мгновенно”. Он добавляет: “Когда модели объясняют свой подход, предлагают кратчайшие решения и выдают рабочий код, это доказывает реальное, пусть и другое, понимание задачи”. По мнению Чана, считать это полным отсутствием понимания — ошибка.
В работе Apple говорится, что использование меньшего числа токенов моделями при возрастающей сложности — “контринтуитивно” и может быть “фундаментальным ограничением”. Но Чан считает, что так модели просто видят свои ограничения и предлагают другой, более короткий путь — это скорее говорит о хорошем подходе к решению.
Чан также предупреждает: нельзя судить о возможностях моделей только на основе “теоретических” головоломок. По его мнению, важно смотреть, применимы ли стратегии LLM к решению настоящих, сложных задач.
Чан добавляет: “Пусть модель на чистом тексте не может рассуждать обобщённо, но LLM с интерпретатором кода — вполне может”. Он обращает внимание, что современные ИИ–агенты — это не только LLM, часто им доступны дополнительные инструменты, такие как доступ к интернету или интерпретатор кода. Он предлагает не ограничивать обсуждение возможностей ИИ только рамками языковой модели.
Публикация “The Illusion of the Illusion of Thinking”, якобы написанная в ответ Apple и частично созданная Claude 4 Opus, на самом деле была шуткой. Автор Алекс Лоусен признался, что удивился, как быстро её восприняли всерьёз, и отметил: “Это был мой первый опыт, когда что-то, что я сделал, стало вирусным. И если честно, это было немного страшно”.