Компания Anthropic представила новый индекс AI Fluency Index, который оценивает, насколько грамотно пользователи взаимодействуют с инструментами искусственного интеллекта. Исследование основано на анализе почти 10 000 анонимизированных диалогов с Claude за январь.
Один из ключевых выводов: чем более «отполированным» выглядит ответ модели, тем реже пользователи проверяют его точность. Примерно 12,3 % диалогов содержали так называемые артефакты — сгенерированный Claude код, документы или интерактивные инструменты.
В таких диалогах пользователи действительно давали более точные и подробные инструкции в начале. Однако это не приводило к столь же внимательной проверке результата. Напротив, в разговорах с артефактами пользователи реже отмечали недостаток контекста (−5,2 процентного пункта), реже проверяли факты (−3,7 п.п.) и реже ставили под вопрос логику Claude (−3,1 п.п.). При этом по собственному Economic Index Anthropic, модель хуже всего справляется с самыми сложными задачами.
Anthropic предлагает несколько возможных объяснений. Если результат выглядит завершённым, пользователи склонны считать его окончательным. В задачах по созданию артефактов, например при проектировании интерфейса, фактическая точность может иметь меньшее значение по сравнению с внешним видом или работоспособностью. Ещё один вариант — оценка результата происходит вне чата, например проверка кода в отдельной среде исполнения.
Самый сильный вывод отчёта касается связи между итерациями и другими проявлениями компетентного поведения. В 85,7 % диалогов были признаки итераций и доработки — пользователи постепенно уточняли и изменяли ответы, а не ограничивались первым вариантом.
В таких итеративных диалогах в среднем фиксировалось 2,67 проявления компетентного поведения, что примерно вдвое больше, чем 1,33 в неитеративных разговорах. Разрыв особенно заметен в критической оценке: пользователи, которые работали итеративно, задавали вопросы к рассуждениям Claude в 5,6 раза чаще и в 4 раза чаще указывали на отсутствие контекста.
Отчёт также показывает разрыв в постановке задач: лишь в 30 % диалогов пользователи объясняли Claude, как именно должна строиться работа. Речь идёт о фразах вроде «Если мои предположения неверны, возражай» или «Покажи ход рассуждений, прежде чем дать ответ». По оценке Anthropic, такие указания меняют всю динамику взаимодействия.
На основе данных Anthropic даёт три рекомендации пользователям: воспринимать первый ответ как начальную версию, а не готовый результат; особенно внимательно проверять «отполированные» ответы; заранее проговаривать формат совместной работы с моделью.
При этом у подхода с активными итерациями есть техническое ограничение. Несколько исследований показывают, что качество ответов ИИ ухудшается, если в диалоге накапливается слишком много лишнего контекста. Чем дольше длится чат, тем более «зашумлённым» становится контекстное окно модели. Поэтому высокая компетентность в работе с ИИ включает и умение вовремя начать новый диалог вместо продолжения перегруженного.
Анализ основан на структуре 4D-AI Fluency Framework, разработанной профессорами Риком Дэканом (Rick Dakan) и Джозефом Феллером (Joseph Feller) совместно с Anthropic. В этой структуре определены 24 типа поведения, которые описывают грамотное взаимодействие с ИИ, но напрямую в чатах можно наблюдать только 11 из них.
Оставшиеся 13 типов поведения, которые Anthropic относит к «наиболее значимым аспектам AI fluency», происходят вне интерфейса чата и плохо поддаются количественной оценке. Сюда входит, например, открытое указание на использование ИИ при передаче сгенерированного контента другим людям. Компания планирует изучать эти аспекты с помощью качественных исследований в дальнейшем.
Источник: отчёт Anthropic об AI Fluency Index.






















