ИИ отлично справляется с кодированием или созданием подкастов, но проваливает экзамены по истории высокого уровня. Это выяснили исследователи, протестировав три крупные языковые модели — GPT-4 от OpenAI, Llama от Meta и Gemini от Google.
Для проверки команда разработала новый тестовый стандарт Hist-LLM, который оценивает ответы на исторические вопросы с использованием Seshat Global History Databank — обширной базы данных исторических знаний.
Результаты, представленные на конференции NeurIPS, оказались неутешительными. Лучшая точность — всего 46% — была показана моделью GPT-4 Turbo, что ненамного выше случайного угадывания.
«ИИ впечатляет, но ему не хватает глубины понимания, необходимой для сложных исторических вопросов. Он хорошо справляется с базовыми фактами, но не годится для детального анализа на уровне PhD», — отмечает Мария дель Рио-Чанона, один из авторов исследования и профессор информатики в Университетском колледже Лондона.
Примеры ошибок включают утверждение о наличии кольчужной брони в Древнем Египте, хотя она появилась там на 1 500 лет позже, или ошибочный ответ о наличии профессиональной армии в определённый период египетской истории.
Проблема в том, что модели, как правило, опираются на часто упоминаемые данные, игнорируя редкие факты. Например, на вопрос о наличии профессиональной армии в Древнем Египте в определённый период GPT-4 дал неверный ответ «да», вероятно, основываясь на данных о других древних империях, таких как Персия.
Также было выявлено, что модели хуже работают с историей регионов, таких как Субсахарская Африка, что может свидетельствовать о предвзятости в их обучении.
«Результаты показывают, что ИИ пока не может заменить человека в таких областях, как история», — считает руководитель исследования Питер Турчин, профессор Complexity Science Hub в Австрии.
Несмотря на это, исследователи видят потенциал использования ИИ в исторической науке. Они планируют улучшить Hist-LLM, добавив данные из менее изученных регионов и более сложные вопросы.
«Наши выводы подчеркивают слабые места моделей, но также показывают их перспективу для помощи историкам», — говорится в статье.