Исследователи Pfizer выступили против выводов статьи “The Illusion of Thinking”, подготовленной учёными Apple. Этот труд утверждает, что крупные языковые модели (LRM) резко теряют точность, когда задания становятся сложнее, и в этом якобы проявляется фундаментальный предел машинного рассуждения.
В ответ Pfizer заявляет: резкое падение качества работы связано не с мнимыми когнитивными границами, а с искусственными условиями тестирования. В экспериментах модели действовали только через текст, не используя инструменты типа программных интерфейсов, что сильно усложнило задачу.
В оригинальном исследовании проверяли результаты моделей вроде Claude 3.7 Sonnet-Thinking и Deepseek-R1 на текстовых головоломках (например, расположения башен или задачи по переправе через реку). С усложнением заданий точность резко падала — это назвали “обрывом в рассуждении”.
Pfizer отмечает: ограничения теста нереалистичны — отсутствие вспомогательных инструментов и необходимость держать всю логику в тексте не выявляют дефект мышления, а мешают распознавать шаги решения в длинных задачах.
Для наглядности исследователи Pfizer разобрали модель o4-mini. В условиях без инструментов она ошибочно признала простую задачу невозможной, потому что не смогла “запомнить” прошедшие этапы. Ограниченная память — известная особенность языковых моделей, описанная и в работе Apple.
По мнению Pfizer, формируется явление “выученной беспомощности”: когда LRM не может выполнить длинную цепочку действий идеально, она делает неверный вывод о невозможности задачи.
Кроме того, в статье Apple не учли накопление ошибок. В задачах на тысячи ходов даже при 99,99% точности на каждом шаге сумма ошибок делает успешное завершение крайне маловероятным. Например, на сложной головоломке шансы на идеальное решение падают ниже 45%.
Pfizer провели новые тесты для GPT-4o и o4-mini, разрешив использование Python-инструмента. Обе справились с простыми задачами, но на сложных продемонстрировали разный подход.
GPT-4o действовал быстро, но продолжал ошибочную стратегию. o4-mini заметила промах, проанализировала его и перестроила ход решения, успешно завершив задачу.
Исследователи сравнили эти типы поведения с системами мышления по Даниэлю Канеману. GPT-4o работает как “Система 1” — быстрая, но склонная к нелогичным решениям. o4-mini использует “Систему 2”: она медленнее, но способна анализировать ходы и исправлять ошибки — признак продуманного решения.
В итоге Pfizer советуют тестировать LRM не только в “чисто языковых” условиях, но и с инструментами. Для более точной оценки модели также стоит проверять, как они выявляют собственные ошибки и меняют стратегию в ходе работы.
Это важно и для безопасности: AI, который не может остановиться и скорректироваться, может оказаться опасным. Тот же, кто пересматривает свои шаги, потенциально намного надёжнее.
Исследование Apple “The Illusion of Thinking” вызвало широкий профессиональный спор о способностях языковых моделей. Pfizer соглашается с их данными, но считает объяснение явления более сложным.