Новое исследование Microsoft и Salesforce показало, что даже самые современные языковые модели ИИ становятся значительно менее надёжными, если разговор длится дольше и пользователь даёт инструкции шаг за шагом. В таких условиях средняя точность снизилась на 39%.
Исследователи разработали метод “sharding” — задачи разбивались на части, похожим образом общаются с ИИ обычные пользователи. Если ИИ выполнял инструкции поэтапно, точность падала примерно с 90% до 51%. Снижение наблюдалось у всех 15 моделей в тесте: от небольшой Llama-3.1-8B до крупных платных систем вроде GPT-4o.
Даже лидеры (Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1) отвечали на 30–40% хуже в многошаговых беседах по сравнению с одноступенчатыми вопросами. Кроме того, результаты стали непостоянными — разница между лучшим и худшим ответом для одной и той же задачи доходила до 50 процентных пунктов.
Названы четыре основные проблемы:
- ИИ часто делает поспешные выводы без всех деталей.
- Слишком сильно опирается на свои предыдущие (иногда ошибочные) ответы.
- Пропускает важную информацию из середины диалога.
- Дает избыточно подробные ответы, делая неправильные предположения о недостающих данных.
Технические попытки улучшить ситуацию — снизить “температуру” генерации, заставить ИИ повторять инструкции, менять степень подробности на каждом этапе — не дали заметного эффекта. Единственно рабочий вариант — сразу дать все данные полностью.
Снижение результатов имеет две причины: базовые навыки моделей падают всего на 16%, но нестабильность вырастает сразу на 112%. При одноступенчатых задачах более производительные модели обычно работали лучше. В длинных беседах все ИИ были одинаково ненадёжны.
Исследование советует:
- Если переписка “запуталась” — откройте новый чат вместо продолжения испорченного.
- В конце сессии запросите полный список требований и используйте его для нового запроса.
Учёные считают, что разработчикам стоит больше внимания уделять надёжности в многошаговых диалогах. Будущие модели должны хорошо справляться даже с неполными инструкциями без специальных приёмов и настроек. По их словам, «надёжность так же важна, как и показатели самой модели, особенно для практических ИИ-ассистентов, где запросы часто разбиты на шаги».