Учёные опровергли исследование Apple: LRM способны на сложные задачи

Исследователи Pfizer выступили против выводов статьи “The Illusion of Thinking”, подготовленной учёными Apple. Этот труд утверждает, что крупные языковые модели (LRM) резко теряют точность, когда задания становятся сложнее, и в этом якобы проявляется фундаментальный предел машинного рассуждения.

В ответ Pfizer заявляет: резкое падение качества работы связано не с мнимыми когнитивными границами, а с искусственными условиями тестирования. В экспериментах модели действовали только через текст, не используя инструменты типа программных интерфейсов, что сильно усложнило задачу.

В оригинальном исследовании проверяли результаты моделей вроде Claude 3.7 Sonnet-Thinking и Deepseek-R1 на текстовых головоломках (например, расположения башен или задачи по переправе через реку). С усложнением заданий точность резко падала — это назвали “обрывом в рассуждении”.

Pfizer отмечает: ограничения теста нереалистичны — отсутствие вспомогательных инструментов и необходимость держать всю логику в тексте не выявляют дефект мышления, а мешают распознавать шаги решения в длинных задачах.

Для наглядности исследователи Pfizer разобрали модель o4-mini. В условиях без инструментов она ошибочно признала простую задачу невозможной, потому что не смогла “запомнить” прошедшие этапы. Ограниченная память — известная особенность языковых моделей, описанная и в работе Apple.

По мнению Pfizer, формируется явление “выученной беспомощности”: когда LRM не может выполнить длинную цепочку действий идеально, она делает неверный вывод о невозможности задачи.

Кроме того, в статье Apple не учли накопление ошибок. В задачах на тысячи ходов даже при 99,99% точности на каждом шаге сумма ошибок делает успешное завершение крайне маловероятным. Например, на сложной головоломке шансы на идеальное решение падают ниже 45%.

Pfizer провели новые тесты для GPT-4o и o4-mini, разрешив использование Python-инструмента. Обе справились с простыми задачами, но на сложных продемонстрировали разный подход.

GPT-4o действовал быстро, но продолжал ошибочную стратегию. o4-mini заметила промах, проанализировала его и перестроила ход решения, успешно завершив задачу.

Исследователи сравнили эти типы поведения с системами мышления по Даниэлю Канеману. GPT-4o работает как “Система 1” — быстрая, но склонная к нелогичным решениям. o4-mini использует “Систему 2”: она медленнее, но способна анализировать ходы и исправлять ошибки — признак продуманного решения.

В итоге Pfizer советуют тестировать LRM не только в “чисто языковых” условиях, но и с инструментами. Для более точной оценки модели также стоит проверять, как они выявляют собственные ошибки и меняют стратегию в ходе работы.

Это важно и для безопасности: AI, который не может остановиться и скорректироваться, может оказаться опасным. Тот же, кто пересматривает свои шаги, потенциально намного надёжнее.

Исследование Apple “The Illusion of Thinking” вызвало широкий профессиональный спор о способностях языковых моделей. Pfizer соглашается с их данными, но считает объяснение явления более сложным.

Источник

Оцените статью
Gimal-Ai