Исследование: LLM теряют точность в длинных диалогах

Исследователь Филипп Лабан и его команда протестировали современные большие языковые модели, включая поколения с GPT-5 и далее, на серии задач с разбивкой на несколько сообщений. Работа показала, что такие сценарии до сих пор остаются проблемными.

Модели проверяли на шести типах задач: по работе с кодом, базами данных, действиями, преобразованием данных в текст, математике и суммаризации. При подаче всей информации одним запросом (concat) качество было заметно выше, чем при разбивке тех же данных на несколько сообщений в диалоге (sharded).

Новые версии моделей показывают небольшой прогресс: среднее падение качества сократилось с 39% до 33%, однако проблема далека от решения. Наибольшие улучшения зафиксированы в задачах на Python — там у некоторых моделей потери ограничились 10–20%.

Лабан отмечает, что в реальных сценариях потери могут быть ещё больше. В эксперименте использовались простые симуляции пользователей, а в живом общении люди часто меняют запросы по ходу диалога, что способно сильнее снижать точность ответов.

Популярные технические настройки, например снижение значения параметра temperature, не устраняют эту проблему. Авторы исследования советуют при возникновении сбоев начинать новый диалог: сначала попросить модель кратко пересказать все предыдущие запросы, а затем использовать этот пересказ как исходный запрос в свежем чате.

Источник: исследование Филиппа Лабана и соавторов.

Оцените статью
Gimal-Ai