Профессор NYU борется с читингом ИИ с помощью устных экзаменов

Профессор Нью-Йоркского университета Панос Ипейритис провел устные экзамены с помощью голосового ИИ-ассистента. Эксперимент показал разницу между письменными работами студентов и их реальными знаниями.

Письменные задания курса “AI/ML Product Management” выглядели слишком хорошо. “Это не ‘работа сильного студента’, а больше похоже на записку McKinsey после трех правок”, — пишет Ипейритис. Многие студенты не смогли объяснить ключевые решения своих работ после пары дополнительных вопросов. Он отметил: “Система с контрольными работами умерла. Благодаря ИИ студенты теперь могут отвечать на большинство привычных экзаменационных вопросов”.

Проведение устных экзаменов вручную — сложная задача для больших групп. Поэтому профессора решили использовать для финального экзамена голосового ИИ на ElevenLabs Conversational AI. Ассистент задавал вопросы о проекте студента, а затем выбирал случайный кейс из курса и проводил опрос по материалу.

Экзамен прошли 36 студентов за девять дней, среднее время — 25 минут на человека. Общие расходы — $15: $8 за Claude, $2 за Gemini, $0.3 за OpenAI, $5 за ElevenLabs. Это 42 цента за студента. Для сравнения, проверка такими же экзаменаторами потребовала бы 30 часов работы и обошлась бы в $750.

Ипейритис отмечает, что первая версия ассистента дала сбои: студенты жаловались на строгий и “унижающий” тон, потому что профессора сымитировали голос коллеги. Один студент написал: “Ассистент кричал на меня”. Были и проблемы с формулировками, с перебиванием в паузах и с “рандомным” выбором кейсов: 88% раз выпадал кейс Zillow. Позже 76% — кейс про “предиктивную полицию”. “Просить LLM выбрать случайно — как просить человека назвать число от 1 до 10: чаще всего получишь 7”, — объясняет он.

Оценка шла по методу “Совет LLM”: Claude, Gemini и ChatGPT сначала анализировали работу независимо, потом сверяли оценки и корректировали их. Сначала разброс был велик: Gemini ставил 17 из 20 баллов, Claude — 13,4. После совместного обзора 60% оценок отличались не больше чем на 1 балл, 29% совпали полностью. Gemini снизил оценки после критики Claude.

ИИ лучше людей справился с обратной связью — создавал четкие структурированные комментарии с примерами из ответов. Тематический анализ экзамена вскрыл и минусы преподавания. Например, блок “Эксперименты” имел средний балл 1,94 из 4, при 3,39 за “Постановку проблемы”. Никто не набрал максимум, трое не смогли рассказать об этом совсем. “Внешний оценщик заставил обратить внимание”, — признал Ипейритис.

Длина экзамена не влияла на итог — самый короткий (9 минут) дал максимальный балл, самый длинный (64 минуты) — средний. По опросу студентов, только 13% предпочли ИИ-экзамен, вдвое больше выбрали бы экзаменатора-человека, 83% считают устный экзамен с ИИ более стрессовым, чем письменный. Но почти 70% согласились, что так лучше проверяются реальные знания.

Теперь устные экзамены снова возможны — благодаря ИИ они дешевы и масштабируемы. Заранее тренироваться смысла нет: вопросы каждый раз новые. Ипейритис выложил промты голосового агента и панель для оценки. Также доступна ссылка для самостоятельного теста.

Источник

Оцените статью
Gimal-Ai