Новое исследование показало, что современные нейросети способны сдавать все три уровня сложного экзамена финансового аналитика CFA. Модель Gemini 3.0 Pro установила рекорд, набрав 97,6% на первом уровне.
Сертификация CFA считается одной из самых трудных в финансах. Экзамен разделён на три этапа, которые проверяют от базовых знаний до анализа и сложной работы с портфелем.
Ещё в 2023 году языковые модели могли отвечать только на часть вопросов. ChatGPT (3.5) завалил первые два уровня, GPT-4 смог пройти первый, но не справился со вторым. GPT-4o уже прошёл все три уровня, но работал только как языковая модель. Теперь, как пишет группа исследователей из Колумбийского университета, Rensselaer Polytechnic Institute и Университета Северной Каролины, текущее поколение моделей успешно сдаёт все три уровня и иногда показывает почти идеальные результаты.
В исследовании протестировали шесть моделей на 980 вопросах: три теста первого уровня (540 вопросов), два второго уровня (176 задач-казусов) и три теста третьего уровня (264 вопроса, в том числе задания с развёрнутым ответом). Все шесть — Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 — сдали все этапы по установленным критериям.
Лучший результат показала Gemini 3.0 Pro, получив 97,6% на первом уровне. Следом шёл GPT-5 (96,1%) и Gemini 2.5 Pro (95,7%). Даже самая слабая модель — DeepSeek-V3.1 — набрала 90,9%.
На втором уровне лидировал GPT-5 с 94,3%. Gemini 3.0 Pro набрала 93,2%, Gemini 2.5 Pro — 92,6%. По словам исследователей, модели показали здесь “почти идеальные результаты”. Этика осталась самой сложной частью: доля ошибок по этой теме составила 17–21%, даже у лучших моделей.
На третьем — самом сложном — уровне Gemini 2.5 Pro лидировала в вопросах с выбором ответа (86,4%), а Gemini 3.0 Pro — в развёрнутых ответах (92%, что на 10% выше предшественника).
В исследовании использовались пробные экзамены: официальные от CFA Institute для уровней I и II, и тренажёры AnalystPrep для уровня III. Для оценки развёрнутых ответов применяли o4-mini — это может приводить к ошибкам и лояльности к подробным/многословным ответам, поэтому результаты считаются приблизительными.
Порог прохождения устанавливался из прошлых работ: уровень I — не менее 60% по каждой теме и 70% в целом, уровень II — не менее 50% по теме и 60% в целом, уровень III — в среднем 63% по выбору ответа и развёрнутым заданиям.
Авторы считают, что современные модели “уже превосходят уровень младших и средних финансовых аналитиков и могут в будущем достигнуть уровня старших специалистов”. “Ранее языковые модели осваивали ‘закодированные знания’ первых уровней, а теперь новое поколение получает навыки для сложного синтеза знаний третьего уровня”, — отмечают исследователи.
Исследование подчёркивает ограничения: экзамены, особенно формат тестов, дают представление только о теоретической подготовке, а не о способности справляться с живой работой аналитика. Модели чаще всего ошибаются в задачах по этике, которые требуют контекста и здравого смысла. Экзамен не измеряет умение действовать в новых реальных ситуациях.
Учёные не исключают возможность утечки экзаменационных вопросов в обучающие выборки, поскольку некоторые вопросы могли попасть в открытые датасеты в переформулированном виде. Это значит, что отдельные модели могли заранее знать правильный ответ.
Тем не менее, за два года искусственный интеллект перешёл от провалов к почти идеальным результатам на самом сложном финансовом тесте. Теперь для сектора важнее вопрос: как встроить знания ИИ в реальные рабочие процессы аналитиков.






















