Новое исследование показывает, что языковые модели могут застревать в процессе размышления, что мешает их работе в интерактивных средах. Особенно это касается решений, где моделям нужно думать и одновременно действовать.
Исследователи из США и ETH Zurich разработали методы измерения и устранения этой проблемы в ситуациях, называемых “агентными задачами”. В таких задачах модели должны самостоятельно ставить цели, использовать языковые интерфейсы и взаимодействовать с другими инструментами.
Команда исследователей выявила “дилемму мышления-действия”. Модели вынуждены находить баланс между прямым взаимодействием с окружающей средой и внутренними размышлениями о возможных действиях.
Даже с неограниченными вычислительными ресурсами модели, склонные к излишнему размышлению, принимают неверные решения. Это происходит из-за неполного понимания моделей о мире, что ведёт к накоплению ошибок.
Анализ выявил три основных модели проблемного поведения. Первая – “паралич анализа”, когда модели застревают на этапе планирования. Вторая – “некорректные действия”, выполняя несколько действий одновременно вместо последовательных шагов. Третья – “преждевременное завершение задач”, когда модели отказываются от задач без получения реальных результатов.
Эти последние две проблемы связаны с “недостаточным размышлением”, выявленным в другом исследовании. В то время как прежнее исследование указывало, что модели иногда недостаточно думают и выдают ответы низкого качества, новое исследование показывает обратную проблему.
В исследовании изучались 19 языковых моделей, включая OpenAI’s o1 и Alibaba’s QwQ. Модели с функцией вызова показали меньшую склонность к излишнему размышлению и лучшую производительность.
Примечательно, что большая модель DeepSeek-R1-671B не подвержена излишнему размышлению благодаря своему специфическому процессу обучения. Это открытие стало неожиданностью для исследователей.
Исследователи предоставили свою методику оценки и набор данных в открытом доступе на GitHub.