Модели Reasoning успешно проходят все уровни CFA

Новое исследование показало, что современные нейросети способны сдавать все три уровня сложного экзамена финансового аналитика CFA. Модель Gemini 3.0 Pro установила рекорд, набрав 97,6% на первом уровне.

Сертификация CFA считается одной из самых трудных в финансах. Экзамен разделён на три этапа, которые проверяют от базовых знаний до анализа и сложной работы с портфелем.

Ещё в 2023 году языковые модели могли отвечать только на часть вопросов. ChatGPT (3.5) завалил первые два уровня, GPT-4 смог пройти первый, но не справился со вторым. GPT-4o уже прошёл все три уровня, но работал только как языковая модель. Теперь, как пишет группа исследователей из Колумбийского университета, Rensselaer Polytechnic Institute и Университета Северной Каролины, текущее поколение моделей успешно сдаёт все три уровня и иногда показывает почти идеальные результаты.

В исследовании протестировали шесть моделей на 980 вопросах: три теста первого уровня (540 вопросов), два второго уровня (176 задач-казусов) и три теста третьего уровня (264 вопроса, в том числе задания с развёрнутым ответом). Все шесть — Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 — сдали все этапы по установленным критериям.

Лучший результат показала Gemini 3.0 Pro, получив 97,6% на первом уровне. Следом шёл GPT-5 (96,1%) и Gemini 2.5 Pro (95,7%). Даже самая слабая модель — DeepSeek-V3.1 — набрала 90,9%.

На втором уровне лидировал GPT-5 с 94,3%. Gemini 3.0 Pro набрала 93,2%, Gemini 2.5 Pro — 92,6%. По словам исследователей, модели показали здесь “почти идеальные результаты”. Этика осталась самой сложной частью: доля ошибок по этой теме составила 17–21%, даже у лучших моделей.

На третьем — самом сложном — уровне Gemini 2.5 Pro лидировала в вопросах с выбором ответа (86,4%), а Gemini 3.0 Pro — в развёрнутых ответах (92%, что на 10% выше предшественника).

В исследовании использовались пробные экзамены: официальные от CFA Institute для уровней I и II, и тренажёры AnalystPrep для уровня III. Для оценки развёрнутых ответов применяли o4-mini — это может приводить к ошибкам и лояльности к подробным/многословным ответам, поэтому результаты считаются приблизительными.

Порог прохождения устанавливался из прошлых работ: уровень I — не менее 60% по каждой теме и 70% в целом, уровень II — не менее 50% по теме и 60% в целом, уровень III — в среднем 63% по выбору ответа и развёрнутым заданиям.

Авторы считают, что современные модели “уже превосходят уровень младших и средних финансовых аналитиков и могут в будущем достигнуть уровня старших специалистов”. “Ранее языковые модели осваивали ‘закодированные знания’ первых уровней, а теперь новое поколение получает навыки для сложного синтеза знаний третьего уровня”, — отмечают исследователи.

Исследование подчёркивает ограничения: экзамены, особенно формат тестов, дают представление только о теоретической подготовке, а не о способности справляться с живой работой аналитика. Модели чаще всего ошибаются в задачах по этике, которые требуют контекста и здравого смысла. Экзамен не измеряет умение действовать в новых реальных ситуациях.

Учёные не исключают возможность утечки экзаменационных вопросов в обучающие выборки, поскольку некоторые вопросы могли попасть в открытые датасеты в переформулированном виде. Это значит, что отдельные модели могли заранее знать правильный ответ.

Тем не менее, за два года искусственный интеллект перешёл от провалов к почти идеальным результатам на самом сложном финансовом тесте. Теперь для сектора важнее вопрос: как встроить знания ИИ в реальные рабочие процессы аналитиков.

Источник

Оцените статью
Gimal-Ai