GPT-4o準確率僅為24%!權威中文教育基準:知識+情商的雙重考驗
近年來,大模型在知識問答、數學推理等方面取得了驚人進展。
然而,當這些技術被引入復雜的教育環境時,一個關鍵問題隨之而來:我們現有的評估方式足夠嗎?我們如何全面評估它們的能力?一個好的「AI老師」僅僅是一個「解題高手」嗎?
當前的評測基準,尤其是在中文領域,存在兩大局限性:
- 維度單一:絕大多數基準(如C-Eval, MMLU等)主要關注模型的知識儲備和理解能力,即「知識維度」。此外大多數基準題型簡單,很難涵蓋現實考試場景中的全部題型類型。
- 忽視能力:它們很大程度上忽視了教育場景中不可或缺的「育人維度」(Cultivation Capabilities),例如啟發式教學、情感支持、道德價值觀培養、批判性思維引導等。
近日,來自華東師范大學的研究者們推出了OmniEduBench,一個專為評估中文大模型「綜合教育素質」而設計的全新基準,包含24,602個高質量問答對。
研究指出,現有基準大多集中在知識維度,而嚴重忽視了真實教育場景中至關重要的「育人能力」。

項目主頁:https://mind-lab-ecnu.github.io/OmniEduBench/
論文鏈接:https://arxiv.org/pdf/2510.26422
代碼倉庫:https://github.com/remiMZ/OmniEduBench-code/tree/main
論文第一作者為華東師范大學智能教育學院副研究員張敏,其主要研究方向為多模態大模型及AI賦能教育。研究團隊發現,即便是Gemini等頂尖閉源模型,在OmniEduBench的特定評測維度上也表現不佳,顯示出當前大模型在真正「懂教育」上仍有顯著差距。
OmniEduBench
覆蓋全學段、全學科

OmniEduBench的核心創新在于其獨特的雙維度評估體系。
維度一:知識維度 (Knowledge Dimension)
這部分包含18,121個條目,旨在全面考察模型的學科知識掌握程度。
- 全學段覆蓋: 涵蓋從小學、中學、高中、大學到專業考試的五個難度級別。
- 全學科覆蓋: 包含41個不同學科,從人文歷史(如中國古代文學史)、理工科(如高等數學、植物生理學)到專業領域(如法學、醫學綜合)。
- 題型豐富: 包含11種常見的考試題型,如單選、多選、填空、簡答、名詞解釋、案例分析和論述題等。
維度二:育人維度 (Cultivation Dimension)
這部分是OmniEduBench的精髓所在,包含6,481個條目,專注于評估模型在真實教學互動中的「軟實力」。
聚焦核心素養,圍繞6大細分領域和20個具體教學主題,如:
- 思維與認知 (Thinking & Cognitive Skills): 批判性思維、問題解決能力。
- 個性化發展 (Personalized Development): 啟發式教學、興趣驅動學習。
- 情感與心理健康 (Emotional & Mental Health): 同理心與共情、成長型思維。
- 品格與價值觀 (Character & Values): 責任感、正直誠信。
例如,在「育人維度」中,模型需要面對這樣的情景題:「有學生在參觀烈士陵園時嬉笑打鬧,我很生氣,該怎么處理?」
考察的不僅是知識,更是模型的情商、價值觀和教育智慧。

防泄露、高挑戰
為了確保基準的質量與挑戰性,OmniEduBench的構建過程堪稱嚴苛,歷經四道關卡:

- 多源收集 (927K): 匯聚公開數據 (21K)、內部試卷等私有數據 (106K),并利用LLM生成場景化問答 (800K),確保數據來源的多樣性與獨特性。
- 結構化清洗 (657K): 統一格式,提取學科、年級、題型等元數據,并進行去重、去敏感內容、去外部信息依賴等標準化清洗流程。
- 雙機篩難 (50K): 為避免模型「背題」,用兩款強大的模型進行「對抗式」篩選。先用QWQ-32B過濾掉它能答對的簡單題,再用更強的Qwen3-235B進行二次篩選,只保留高難度樣本。
- 專家定版 (24.6K): 最后,由50位碩士生和5位資深專家進行最終的人工審核與質量校驗。最終抽樣質檢顯示:整體質量4.8/5,答案準確性4.8/5,標注者一致性高達0.90。
實驗結果
最強閉源模型也難應對
研究團隊在OmniEduBench上對11個主流的閉源和開源LLM(包括GPT-4o, Gemini-2.5 Pro, Claude-4 Sonnet, Qwen系列, DeepSeek-V3.1等)進行了全面測試,結果發人深省:

發現一:知識維度「水土不服」,GPT-4o表現不佳在知識維度上,只有Gemini-2.5 Pro的平均準確率超過了60% (62.76%)。令人驚訝的是,強如GPT-4o在該項測試中表現不佳,準確率僅為24.17%,遠低于多個頂尖開源模型(如QwQ-32B為53.87%)。這可能表明GPT系列在處理多樣化、本土化的中文教育考試風格題目時存在明顯的「水土不服」。
發現二:「育人」能力是集體短板,距人類水平差距巨大在更關鍵的育人維度上,所有模型都暴露了短板。盡管任務形式相對簡單(多為選擇題),但即便是表現最好的模型(QwQ-32B,準確率70.27%),與人類在該領域的表現相比,仍有近30%的巨大差距。這表明當前LLM在同理心、啟發式引導等高級教育能力上普遍缺乏。
發現三:高難度子集 (OmniEduBench HARD) ,讓頂尖模型「現形」研究團隊還構建了一個高難度子集OmniEduBench HARD。在這個子集上,所有LLM的性能都出現了「斷崖式」下跌,即便是最強的Gemini-2.5 Pro,準確率也不足50%,充分證明了該基準的挑戰性和區分度。

為什么OmniEduBench很重要?
考驗真實「可用性」:教育AI不應只是「解題器」。OmniEduBench首次將教育場景中的互動能力系統化、可量化,推動行業關注模型在啟發、反饋等真實互動場景中的價值。
立足本土「適配性」:中文教育的語言文化與教學實踐有其獨特性。OmniEduBench是一個原生中文教育基準,從數據到任務定義都更「接地氣」,能更準確地評估模型在本土環境下的表現。
結語與展望
OmniEduBench的發布,為中文大模型在教育領域的評測提供了一個急需的、更全面的視角。
它清晰地揭示了當前LLM的短板:盡管模型在知識獲取上取得了長足進步,但在實現教育的核心目標——「育人」方面,仍有很長的路要走。
研究團隊表示,未來的工作將探索育人維度中更復雜的問題類型,并引入多模態教育場景,以持續推動LLM和MLLM在教育領域的綜合能力發展。




































