На конференции NeurIPS обсуждаемая статья получила высшую оценку. Работа вызвала споры среди исследователей. Часть считает, что использование высоких значений метрики “pass@k” (когда модели дают сотни или тысячи попыток и засчитывают только один правильный ответ) не отражает настоящих способностей к рассуждению. По их мнению, это показывает лишь, может ли модель случайно подобрать правильный ответ.
Другая группа отмечает, что более высокая последовательность моделей, обученных с помощью reinforcement learning (RL), может указывать на более целенаправленное мышление, а не на ошибку оценки. Критики предлагают тестировать, насколько модель постоянно следует логике и чаще выводит верные решения, а не просто ищет шанс угадать ответ.
Авторы статьи признают, что метрика “pass@1024” (дается 1024 попытки) может быть нечестной на заданиях с ограниченным числом ответов, например, AIME. Тем не менее, они подчеркивают, что сходные результаты наблюдаются и на сложных задачах по программированию и математике, где угадывание невозможно. Авторский ручной анализ показал, что базовые модели часто выдают логичные решения, что говорит о высоком потенциале таких моделей. Следующим шагом команда планирует добавить явные случайные базовые линии для контроля влияния угадывания.
Авторы уточняют, что статья не утверждает о невозможности RL сделать рассуждение модели лучше или выйти за пределы исходных возможностей. Они готовы продолжать эксперименты, чтобы выяснить, может ли RL действительно усиливать логическое мышление больших языковых моделей, и отмечают, что результаты могут меняться по мере роста моделей и наборов данных.
В апреле 2025 года исследование Tsinghua University и Shanghai Jiao Tong University показало, как RLVR влияет на искусственный интеллект. RLVR (reinforcement learning with verifiable rewards) увеличивает шанс получить правильный ответ с первой попытки (pass@1), но не дает новых возможностей: “RLVR не так силен, как считалось раньше — он не дает модели решать задачи, которые исходная модель решить не может”, — пишет ведущий автор Ян Юэ.
Глава OpenAI Сэм Альтман признает, что масштаб модели, а не только обучение с подкреплением, является ключом к появлению новых научных знаний: “Комбинируя рассуждения с гораздо более крупной моделью, можно получить первые признаки появления настоящих новых научных знаний”.
RLVR используют для обучения моделей рассуждать на задачах с автоматической проверкой решения — например, по математике, программированию и визуальным задачам. Здесь в качестве награды служит автоматический сигнал: например, правильный расчет или успешный запуск кода. Этот подход применяется, в частности, в моделях OpenAI o-series и Deepseek-R1.
Исследование показало, что RLVR снижает разнообразие ответов модели и фокусирует её на небольшом числе решений с наибольшей наградой. Это увеличивает успех с одной попытки, но ограничивает изучение альтернативных решений в серии попыток.
Сравнивая работу базовых моделей и RLVR по метрике pass@k, ученые выяснили: при малом числе попыток RLVR-версии выигрывают благодаря высокой вероятности успеха. Если же дать больше попыток, лучше работают базовые модели, которые пробуют больше разных стратегий.
Такая закономерность сохранялась на задачах из математики, программирования и визуального рассуждения. RLVR-модели часто правильно отвечали с первого раза, но уступали в серии попыток.
Ручная проверка решений показала, что базовые модели уже способны решать сложные задачи разными способами — некоторые из них раньше считались возможными только у моделей, обученных с RL. Визуализация ходов рассуждений подтвердила: RLVR не добавляет новых стратегий, а повышает вероятность выбора уже существующих у базовой модели.
AI-исследователь Натан Ламберт назвал результаты ожидаемыми: “Это не новая интуиция, но хороший набор данных. Круто, что RL уменьшает энтропию выборки, но делает модель более эффективной при pass@1.” Он обратил внимание, что применялся узкий набор данных (только MATH и GSM8K): “Для фундаментальных выводов надо масштабировать подход. OpenAI и другие показывают, что масштаб — ключевой момент, а с такими наборами это пока невозможно.”
Исследование не является критикой reinforcement learning в целом. Ламберт говорит: “Теперь нам остаётся делать по-настоящему сложные вещи. Сложные задачи интересней, но как ни странно — они сложны и требуют больше времени.”
Юэ добавил, что рассматривались только RL-модели, обученные с нуля, без дополнительных техник, таких как chain-of-thought финетюнинг и distillation: “Здесь мы изучали только нулевые RL-модели. У моделей OpenAI есть дополнительное дообучение на рассуждении и дистилляция и др.” По его мнению, дальнейшие шаги, например, предварительное дообучение, могут повысить итоговые результаты.






















