推理模型橫掃CFA三級考試
從屢考不過到全面通過
特許金融分析師(Chartered Financial Analyst, CFA)認證是全球投資和金融專業人士的黃金標準資格認證。CFA考試分為三個級別:一級測試基礎知識,采用獨立選擇題;二級測試應用分析能力,采用案例式題組;三級測試綜合能力和投資組合構建,結合題組和建構式問答題。
2023年的研究顯示,ChatGPT(GPT-3.5-turbo)無法通過一級和二級考試,GPT-4僅通過一級但二級落榜。2024年,Claude 3 Opus和GPT-4o終于能夠通過一級和二級。而這項最新研究發現:當前最先進的推理模型已經能夠全面通過CFA三級考試的所有級別。

評測設置與模型表現

論文使用了總計980道題目的模擬CFA考試數據集進行評測,包括3套一級考試(共540道選擇題)、2套二級考試(共176道選擇題)和3套三級考試(共264道題目,含選擇題和建構式問答)。
在一級考試中,Gemini 3.0 Pro以97.6%的準確率創下最高紀錄。在二級考試中,GPT-5以94.3%的準確率領先。在三級考試中,Gemini 2.5 Pro在選擇題部分達到86.4%,而Gemini 3.0 Pro在建構式問答部分達到92.0%。
論文按照先前研究的通過標準進行評判:一級要求每個主題得分≥60%且總分≥70%;二級要求每個主題得分≥50%且總分≥60%;三級要求選擇題和建構式問答的平均分≥63%。結果顯示,Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1六款模型全部通過了三個級別的考試。

與基線模型的對比

為驗證結果可靠性,論文首先復現了先前研究中基線模型的表現。ChatGPT在一級的準確率為58.9%–68.4%,二級為43.8%–48.3%,持續未能達到通過標準。GPT-4在一級達到73.3%–80.9%,二級為55.7%–69.9%,在零樣本設置下二級仍未通過。GPT-4o在鏈式思維提示下一級達到90.6%,二級達到73.9%,能夠穩定通過前兩級。

相比之下,當前推理模型不僅全部通過考試,而且在一級和二級幾乎達到完美分數。這表明這些模型已經完全掌握了CFA一級和二級的知識體系,正在向資深金融分析師的專業水平邁進。
鏈式思維提示的效果差異
論文發現了一個有趣的現象:鏈式思維(Chain-of-Thought, CoT)提示策略對不同代際模型的效果存在顯著差異。
對于基線模型,CoT提示帶來了實質性提升——GPT-4提升了7.6到14.2個百分點,ChatGPT提升了4.5到5.5個百分點。然而,對于推理模型,CoT提示在選擇題上的效果不一致。Gemini 3.0 Pro在CoT設置下反而出現了輕微下降:一級降低0.6%,二級降低1.2%,三級選擇題降低1.5%。GPT-5在二級也下降了1.7%。
但這一趨勢在建構式問答題上完全逆轉:CoT提示仍然高度有效。例如,Gemini 3.0 Pro在建構式問答上從零樣本的86.6%提升到CoT的92.0%,Claude Opus 4.1從73.4%提升到79.0%。這表明,雖然現代架構在封閉式任務上可能正在接近性能天花板,但顯式推理對于需要綜合能力的開放式任務仍然具有建設性作用。
主題層面的表現分析
論文還分析了不同主題的錯誤分布。與先前研究將定量領域識別為LLM主要弱點不同,高級推理模型似乎已經克服了這一瓶頸。例如,GPT-5和Grok 4在一級和二級的定量方法、權益投資和經濟學等主題上接近零錯誤率。
然而,道德與專業標準(Ethical and Professional Standards) 仍然是一個持續挑戰,在表現最好的推理模型中仍顯示出最高的相對錯誤率——二級約為17%–21%。這表明,雖然模型在技術性計算和分析方面已經非常出色,但在涉及職業道德判斷的問題上仍有提升空間。
論文也坦誠討論了研究的局限性。三級評測依賴第三方模擬題而非官方考試材料;建構式問答采用o4-mini進行自動評分,可能存在對冗長回答的偏好偏差;此外,無法完全排除訓練數據污染的風險。
盡管如此,這項研究的核心發現是明確的:當前最先進的推理模型已經基本掌握了CFA一級和二級的編碼知識體系。三級建構式問答表現的大幅提升表明,最新一代推理模型在復雜綜合能力方面也在快速進步。這些發現為未來研究建立了新的統一性能基線。
論文標題:Reasoning Models Ace the CFA Exams
論文鏈接:https://arxiv.org/abs/2512.08270
本文轉載自??AI帝國??,作者:無影寺

















