ИИ всё ещё плохо справляется с историей, показало новое исследование

ИИ отлично справляется с кодированием или созданием подкастов, но проваливает экзамены по истории высокого уровня. Это выяснили исследователи, протестировав три крупные языковые модели — GPT-4 от OpenAI, Llama от Meta и Gemini от Google.

Для проверки команда разработала новый тестовый стандарт Hist-LLM, который оценивает ответы на исторические вопросы с использованием Seshat Global History Databank — обширной базы данных исторических знаний.

Результаты, представленные на конференции NeurIPS, оказались неутешительными. Лучшая точность — всего 46% — была показана моделью GPT-4 Turbo, что ненамного выше случайного угадывания.

«ИИ впечатляет, но ему не хватает глубины понимания, необходимой для сложных исторических вопросов. Он хорошо справляется с базовыми фактами, но не годится для детального анализа на уровне PhD», — отмечает Мария дель Рио-Чанона, один из авторов исследования и профессор информатики в Университетском колледже Лондона.

Примеры ошибок включают утверждение о наличии кольчужной брони в Древнем Египте, хотя она появилась там на 1 500 лет позже, или ошибочный ответ о наличии профессиональной армии в определённый период египетской истории.

Проблема в том, что модели, как правило, опираются на часто упоминаемые данные, игнорируя редкие факты. Например, на вопрос о наличии профессиональной армии в Древнем Египте в определённый период GPT-4 дал неверный ответ «да», вероятно, основываясь на данных о других древних империях, таких как Персия.

Также было выявлено, что модели хуже работают с историей регионов, таких как Субсахарская Африка, что может свидетельствовать о предвзятости в их обучении.

«Результаты показывают, что ИИ пока не может заменить человека в таких областях, как история», — считает руководитель исследования Питер Турчин, профессор Complexity Science Hub в Австрии.

Несмотря на это, исследователи видят потенциал использования ИИ в исторической науке. Они планируют улучшить Hist-LLM, добавив данные из менее изученных регионов и более сложные вопросы.

«Наши выводы подчеркивают слабые места моделей, но также показывают их перспективу для помощи историкам», — говорится в статье.

Источник

Оцените статью
Gimal-Ai