Большие языковые модели справляются с экзаменационными вопросами, которые вызывают трудности у студентов, но сами не понимают, почему эти задания сложные. Новое исследование выявило серьезный недостаток в том, как ИИ оценивает сложность заданий с человеческой точки зрения.
Команда ученых из нескольких университетов США проверила, могут ли языковые модели определить, насколько трудны экзаменационные вопросы для людей. Были протестированы более 20 моделей, включая GPT-5, GPT-4o, варианты Llama и Qwen, а также специальные модели рассуждения, такие как Deepseek-R1.
Моделям дали задание — оценить трудность экзаменационных вопросов для людей. Для сравнения использовали реальные оценки студентов с экзаменов USMLE (медицина), Cambridge (английский), SAT по чтению/письму и SAT по математике.
Результаты показали, что оценки ИИ почти не совпадают с человеческими. Исследователи использовали коэффициент Спирмена, чтобы сравнить, насколько одинаково люди и ИИ ранжируют вопросы от простых к сложным. 1 — полное совпадение, 0 — отсутствие связи. В среднем все модели показали результат ниже 0.50. Более новые или крупные модели не были автоматически лучше: GPT-5 получил 0.34, а более старая GPT-4.1 — 0.44.
Главной проблемой названа «ошибка всезнания»: модели слишком хорошо справляются с заданиями и не могут повторить затруднения слабых студентов. В медицинском экзамене вопросы, на которых чаще всего ошибались студенты, для ИИ не представляли сложности.
Попытки заставить модели имитировать слабых, средних и сильных учеников не дали результата. Точность менялась незначительно — не больше чем на 1%. Модели не могут “снизить” свои возможности: они продолжают находить правильные ответы и не делают типичных ошибок.
Исследователи обнаружили и отсутствие саморефлексии. Если модель считает вопрос трудным, она должна чаще ошибаться на нем. Но это почти не наблюдается. Даже GPT-5 не может предсказать, какие задания для нее сложны. Оценка трудности и реальные ошибки не связаны.
Вместо анализа так, как это делают люди, модели формируют свой, не совпадающий с реальным, взгляд на сложность. Они больше согласуются друг с другом, чем с результатами людей — это называют «машинным консенсусом». Как правило, модели недооценивают сложность и сужают оценки в низкий диапазон, тогда как фактические данные сильно отличаются.
Умение правильно оценивать сложность заданий — основа образовательного тестирования, автоматизированной генерации тестов и систем индивидуального обучения. Пока такое возможно только после проведения массовых тестов с реальными студентами. Предполагалось, что модели смогут заменить этот этап, но новое исследование показало: решение задач не значит понимания причин трудностей для человека.
Для применения ИИ в образовании нужны другие методы. Ученые считают, что можно тренировать модели на данных о реальных ошибках студентов, чтобы приблизить их к человеческому восприятию.
По данным OpenAI, роль ИИ в образовании быстро растет. В Германии «написание и редактирование» — самый популярный сценарий использования, а «обучение и образование» находится на втором месте.
Бывший исследователь OpenAI Андрей Карпаты призвал к изменению системы образования: «Школы должны предполагать, что любая работа вне класса выполнена с помощью ИИ, так как инструменты для выявления этого неэффективны». Он предложил модель «перевернутого класса», где экзамены проходят в школе, а изучение материала с помощью ИИ — дома. Цель — чтобы студенты умели и с ИИ работать, и без него.






















