Крупные reasoning-модели часто совершают нелогичные ошибки: они дольше «думают» над простыми задачами, чем над сложными, и результат получается хуже. Группа исследователей из США предложила теоретические законы, которые описывают, как такие AI-модели должны рассуждать.
Reasoning-модели, такие как OpenAI o1 или Deepseek-R1, работают иначе, чем обычные языковые модели. Перед ответом они создают цепочку промежуточных шагов — reasoning trace. Например, при ответе на вопрос «Сколько будет 17 × 24?» reasoning trace может включать последовательные вычисления, как у человека.
Эта методика помогает лучше справляться со сложными задачами, например математическими доказательствами. Но новое исследование показало, что reasoning-модели не всегда работают эффективно. В частности, Deepseek-R1 делает на 300 reasoning-токенов больше при возведении числа в квадрат, чем при объединённом задании на сложение и возведение в квадрат. При этом точность по сложной задаче падает на 12,5%.
Главная проблема, как считают авторы, — отсутствие логики в распределении усилий. Человек тратит больше времени на сложное. Модель — нет: иногда «перемудряет» с простыми задачами, а сложные решает чисто механически. Причина, по мнению исследователей, в обучающих данных — примеры reasoning-решений формируются без явных правил о времени на размышления.
Предложена новая система — “Laws of Reasoning” (LoRe) — с двумя главными законами. Первый: усилия модели должны расти пропорционально сложности задачи (задача вдвое сложнее — вдвое больше вычислений). Второй: точность должна падать экспоненциально, если задачи усложняются.
Так как напрямую сложность задачи измерить нельзя, исследователи предлагают проверять две вещи. Во-первых, сложные задачи должны требовать больше времени на раздумья. Во-вторых, если на первую задачу уходит минута, а на вторую — две, на обе вместе должно уходить около трёх минут.
Для проверки создали двуxчастный бенчмарк. Первая часть — 40 задач разных типов (математика, наука, язык, код) с 30 вариантами разной сложности. Вторая часть — 250 сложных составных заданий из датасета MATH500.
Тестирование 10 крупных reasoning-моделей показало смешанные результаты. Почти все тратят больше времени на сложные задачи, кроме самой маленькой — Deepseek-R1-Distill-Qwen-1.5B, которая наоборот дольше думает над простыми задачами.
Но на составных задачах провалились все модели. Разница между ожиданием и фактическими затратами времени оказалась большой. Даже специальные модели типа Thinkless-1.5B или AdaptThink-7B не помогли.
Для решения проблемы ученые применили дообучение на принципах сложения времени reasoning’а. Из нескольких решений они выбирают то, где итоговое усилие при объединённой задаче максимально похоже на сумму усилий для каждой части.
В результате в модели на 1,5. млрд параметров разброс reasoning-времени снизился на 40,5%. Качество reasoning-решений выросло по всем шести тестам. Для 8B-модели средняя точность повысилась на 5 процентных пунктов.
Интересный факт: после такого обучения улучшились даже те навыки reasoning’a, которые напрямую не тренировались. Среди ограничений авторы отмечают малое число задач (40), и невозможность проверить закрытые модели из-за стоимости. Код и бенчмарки в открытом доступе.
Сегодня reasoning-модели — ключевой тип ИИ: Deepseek R1 конкурирует с более крупными системами, а гибридные модели, например Claude Sonnet 3.7, позволяют выбирать «бюджет» на рассуждение пользователя.
Однако исследования показывают, что автоматическое рассуждение — это не то же самое, что мышление человека. Модели лучше находят готовые решения в обученных данных, но вряд ли могут вывести новые идеи. Свежие тесты, например OpenAI, это подтверждают: ИИ хорошо отвечает на тестовые вопросы, но плохо справляется с задачами, требующими настоящих инноваций.
Тем не менее индустрия продолжает вкладываться в рост мощностей reasoning-моделей. Например, OpenAI задействовала в десять раз больше ресурсов для reasoning в модели o3, чем в o1, всего через четыре месяца после её выпуска.






















