国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

GPT-4o準確率僅為24%!權威中文教育基準:知識+情商的雙重考驗

人工智能 新聞
華東師范大學智能教育學院發布OmniEduBench,首次從「知識+育人」雙維度評測大模型教育能力。測評2.4萬道中文題后,實驗結果顯示:GPT-4o等頂尖AI會做題,卻在啟發思維、情感支持等育人能力上遠不及人類,暴露AI當老師的關鍵短板。

近年來,大模型在知識問答、數學推理等方面取得了驚人進展。

然而,當這些技術被引入復雜的教育環境時,一個關鍵問題隨之而來:我們現有的評估方式足夠嗎?我們如何全面評估它們的能力?一個好的「AI老師」僅僅是一個「解題高手」嗎?

當前的評測基準,尤其是在中文領域,存在兩大局限性:

  1. 維度單一:絕大多數基準(如C-Eval, MMLU等)主要關注模型的知識儲備和理解能力,即「知識維度」。此外大多數基準題型簡單,很難涵蓋現實考試場景中的全部題型類型。
  2. 忽視能力:它們很大程度上忽視了教育場景中不可或缺的「育人維度」(Cultivation Capabilities),例如啟發式教學、情感支持、道德價值觀培養、批判性思維引導等。

近日,來自華東師范大學的研究者們推出了OmniEduBench,一個專為評估中文大模型「綜合教育素質」而設計的全新基準,包含24,602個高質量問答對。

研究指出,現有基準大多集中在知識維度,而嚴重忽視了真實教育場景中至關重要的「育人能力」。

項目主頁:https://mind-lab-ecnu.github.io/OmniEduBench/

論文鏈接:https://arxiv.org/pdf/2510.26422

代碼倉庫:https://github.com/remiMZ/OmniEduBench-code/tree/main

論文第一作者為華東師范大學智能教育學院副研究員張敏,其主要研究方向為多模態大模型及AI賦能教育。研究團隊發現,即便是Gemini等頂尖閉源模型,在OmniEduBench的特定評測維度上也表現不佳,顯示出當前大模型在真正「懂教育」上仍有顯著差距。

OmniEduBench

覆蓋全學段、全學科

OmniEduBench的核心創新在于其獨特的雙維度評估體系。

維度一:知識維度 (Knowledge Dimension)

這部分包含18,121個條目,旨在全面考察模型的學科知識掌握程度。

  • 全學段覆蓋: 涵蓋從小學、中學、高中、大學到專業考試的五個難度級別。
  • 全學科覆蓋: 包含41個不同學科,從人文歷史(如中國古代文學史)、理工科(如高等數學、植物生理學)到專業領域(如法學、醫學綜合)。
  • 題型豐富: 包含11種常見的考試題型,如單選、多選、填空、簡答、名詞解釋、案例分析和論述題等。

維度二:育人維度 (Cultivation Dimension)
這部分是OmniEduBench的精髓所在,包含6,481個條目,專注于評估模型在真實教學互動中的「軟實力」。

聚焦核心素養,圍繞6大細分領域和20個具體教學主題,如:

  • 思維與認知 (Thinking & Cognitive Skills): 批判性思維、問題解決能力。
  • 個性化發展 (Personalized Development): 啟發式教學、興趣驅動學習。
  • 情感與心理健康 (Emotional & Mental Health): 同理心與共情、成長型思維。
  • 品格與價值觀 (Character & Values): 責任感、正直誠信。

例如,在「育人維度」中,模型需要面對這樣的情景題:「有學生在參觀烈士陵園時嬉笑打鬧,我很生氣,該怎么處理?」 

考察的不僅是知識,更是模型的情商、價值觀和教育智慧。

防泄露、高挑戰

為了確保基準的質量與挑戰性,OmniEduBench的構建過程堪稱嚴苛,歷經四道關卡:

  1. 多源收集 (927K): 匯聚公開數據 (21K)、內部試卷等私有數據 (106K),并利用LLM生成場景化問答 (800K),確保數據來源的多樣性與獨特性。
  2. 結構化清洗 (657K): 統一格式,提取學科、年級、題型等元數據,并進行去重、去敏感內容、去外部信息依賴等標準化清洗流程。
  3. 雙機篩難 (50K): 為避免模型「背題」,用兩款強大的模型進行「對抗式」篩選。先用QWQ-32B過濾掉它能答對的簡單題,再用更強的Qwen3-235B進行二次篩選,只保留高難度樣本。
  4. 專家定版 (24.6K): 最后,由50位碩士生和5位資深專家進行最終的人工審核與質量校驗。最終抽樣質檢顯示:整體質量4.8/5,答案準確性4.8/5,標注者一致性高達0.90。

實驗結果

最強閉源模型也難應對

研究團隊在OmniEduBench上對11個主流的閉源和開源LLM(包括GPT-4o, Gemini-2.5 Pro, Claude-4 Sonnet, Qwen系列, DeepSeek-V3.1等)進行了全面測試,結果發人深省:

發現一:知識維度「水土不服」,GPT-4o表現不佳在知識維度上,只有Gemini-2.5 Pro的平均準確率超過了60% (62.76%)。令人驚訝的是,強如GPT-4o在該項測試中表現不佳,準確率僅為24.17%,遠低于多個頂尖開源模型(如QwQ-32B為53.87%)。這可能表明GPT系列在處理多樣化、本土化的中文教育考試風格題目時存在明顯的「水土不服」。

發現二:「育人」能力是集體短板,距人類水平差距巨大在更關鍵的育人維度上,所有模型都暴露了短板。盡管任務形式相對簡單(多為選擇題),但即便是表現最好的模型(QwQ-32B,準確率70.27%),與人類在該領域的表現相比,仍有近30%的巨大差距。這表明當前LLM在同理心、啟發式引導等高級教育能力上普遍缺乏。

發現三:高難度子集 (OmniEduBench HARD) ,讓頂尖模型「現形」研究團隊還構建了一個高難度子集OmniEduBench HARD。在這個子集上,所有LLM的性能都出現了「斷崖式」下跌,即便是最強的Gemini-2.5 Pro,準確率也不足50%,充分證明了該基準的挑戰性和區分度。

為什么OmniEduBench很重要?

考驗真實「可用性」:教育AI不應只是「解題器」。OmniEduBench首次將教育場景中的互動能力系統化、可量化,推動行業關注模型在啟發、反饋等真實互動場景中的價值。

立足本土「適配性」:中文教育的語言文化與教學實踐有其獨特性。OmniEduBench是一個原生中文教育基準,從數據到任務定義都更「接地氣」,能更準確地評估模型在本土環境下的表現。

結語與展望

OmniEduBench的發布,為中文大模型在教育領域的評測提供了一個急需的、更全面的視角。

它清晰地揭示了當前LLM的短板:盡管模型在知識獲取上取得了長足進步,但在實現教育的核心目標——「育人」方面,仍有很長的路要走。

研究團隊表示,未來的工作將探索育人維度中更復雜的問題類型,并引入多模態教育場景,以持續推動LLM和MLLM在教育領域的綜合能力發展。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-26 08:33:00

2024-06-12 11:50:23

2025-05-06 15:32:23

模型AI測試

2024-08-02 13:14:51

2024-06-20 10:43:15

2024-06-18 12:54:39

2025-07-25 09:31:34

2024-06-27 12:45:30

2024-06-05 08:29:35

2023-07-26 15:13:33

人工智能OpenAI

2024-05-21 12:23:17

2023-11-20 21:56:04

AI推理

2023-05-05 09:42:12

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

2024-01-30 21:18:57

語言模型圖像序列機器人

2025-04-01 09:25:00

2025-04-08 02:26:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI
點贊
收藏

51CTO技術棧公眾號

91精品久久久久久久久久另类 | 久久91导航| 久久精品天堂| 亚洲人a成www在线影院| 国产精品免费久久久| 日韩国产小视频| 97视频精品| 国产精品电影久久久久电影网| 精品国产午夜肉伦伦影院| 在线日韩欧美视频| 久久久蜜桃精品| 和岳每晚弄的高潮嗷嗷叫视频 | 日本精品福利视频| 韩日av一区二区| 男的插女的下面视频| 亚洲一级二级三级在线免费观看| 伊人久久大香线蕉av一区二区| 亚洲成人av在线影院| 国产91精品久久久久久久网曝门| 欧美aaa大片| 四虎在线精品| 在线视频你懂得一区二区三区| 国产一区二区三区在线免费| 日韩二区三区在线观看| 男人天堂a在线| 亚洲男人天堂一区| av观看在线| 91国产美女在线观看| 香蕉视频官网在线观看日本一区二区| 精品免费视频123区| 99精品久久久久久| 最新真实国产在线视频| 色777狠狠综合秋免鲁丝 | 蜜臀精品久久久久久蜜臀| 欧美xnxx| 91av在线网站| 精品久久在线| 亚洲激情在线播放| 日韩美女视频中文字幕| 激情综合婷婷| 热re99久久精品国99热蜜月| 国产精品久久久久久久久久免费看| 亚洲人成啪啪网站| 久久国产精品成人免费观看的软件| 午夜探花在线观看| 欧美探花视频资源| 国产精品欧美大片| 欧美黑人xxxxx| 亚洲已满18点击进入久久| 成人影欧美片| 国产精品直播网红| 欧美特黄aaaaaaaa大片| 99热99热| 久久偷看各类女兵18女厕嘘嘘| 日韩成人影音| 婷婷六月综合亚洲| 日韩偷拍一区二区| 国产精品久久久久久久久久10秀 | 国产中文字幕第一页| 一区二区三区美女xx视频| 99在线精品免费视频九九视| 91小视频网站| 欧美成年人视频网站欧美| 国产一区高清在线| 精品无人乱码一区二区三区 | 五月亚洲婷婷| 777米奇影视第四色| 99久久久久免费精品国产| 久久久99精品免费观看不卡| 极品销魂美女一区二区三区| 图片区小说区区亚洲影院| 91欧美精品成人综合在线观看| 国产精品天堂蜜av在线播放| 亚洲a级在线播放观看| 日韩欧美主播在线| 国产精品日韩| 亚洲天堂电影| 不卡av免费在线| 国产精品视频播放| 欧美精品少妇一区二区三区| 蜜桃一区二区三区在线观看| 久久久免费人体| 九色丨porny丨自拍入口| 成人免费网站在线看| 精品国产一区二区三区四区四| 成人激情校园春色| 国产精品亚洲a| 久久av免费一区| 亚洲999一在线观看www| 欧美18—20岁hd第一次| 一区二区三区四区av| 97中文字幕| 超在线视频97| 成人网在线免费视频| 日韩精品一页| 欧美日韩国产综合视频| www.日本在线播放| caoporn国产精品免费公开| 欧美日韩国产免费一区二区 | 日韩av电影国产| 欧美大黄免费观看| 国产精品久久久久久久久快鸭| 青青草视频一区| 欧美激情精品久久久六区热门| 日本一区免费在线观看| 9色在线视频网站| 99欧美精品| 日本aⅴ亚洲精品中文乱码| 3d动漫精品啪啪一区二区三区免费| 国产精品一区二区果冻传媒| 精品亚洲自拍| 欧美高清影院| 厕沟全景美女厕沟精品| 巨大荫蒂视频欧美另类大| 午夜影院免费| 日本调教视频在线观看| 欧美日韩一区二区在线免费观看| 亚洲a∨一区二区三区| 国产亚洲精品自在久久| 国产精品视频在线观看| 欧美一区三区三区高中清蜜桃| 另类少妇人与禽zozz0性伦| 日韩精品在线观看网站| 91久久综合| sihu成人| 免费人成精品欧美精品| 五月婷婷激情综合| 麻豆传媒在线免费看| 久久99久国产精品黄毛片入口 | 轻轻草成人在线| 精品国产亚洲一区二区三区在线| 国产精品久久久久白浆| 国产亚洲精品网站| 捆绑紧缚一区二区三区在线观看| 三级短视频在线| 翔田千里一区| 91av久久| 国产午夜久久av| 亚洲精品国产动漫| 国模 一区 二区 三区| 国产一区二区三区免费看 | 国产精品久久中文| 4444kk亚洲人成电影在线| 欧美综合天天夜夜久久| 欧美午夜精品理论片a级大开眼界| 国产乱人伦精品一区| 国模精品视频一区二区| 亚洲精品乱码| 深夜福利免费在线观看| 国产精品中文字幕在线| 欧美最猛性xxxxx免费| 日韩免费中文专区| 高清国语自产在线观看| 欧美人与性动交α欧美精品济南到 | 天堂av在线7| 成人短视频app| 色喇叭免费久久综合网| mm视频在线视频| 91精品久久久久久久久久另类| 免费黄网在线观看| 性色一区二区| 日韩欧美精品| 久9久9色综合| 爱情岛论坛亚洲品质自拍视频网站| 欧美性大战久久久久| 久久久久成人网| 日韩欧美一区二区三区免费看| 亚洲最好看的视频| 在线观看不卡| 欧美三级乱人伦电影| 国产精品成人播放| 成人免费视频网站在线看| 欧美日韩不卡| 久久福利一区| 欧美一区在线视频| 精品国产中文字幕| 幼a在线观看| 久久国产88| 亚洲国产欧美一区二区三区同亚洲| 国产精品一区二区av| 欧美vide| 欧美国产偷国产精品三区| 亚洲激情网站免费观看| 久久免费国产精品1| 亚洲视频在线观看网站| 日韩在线观看中文字幕| 欧美一区三区二区在线观看| 精品一区二区三区久久久| 黄色污网站在线免费观看| 亚洲 欧美 综合 另类 中字| 日韩肉感妇bbwbbwbbw| 欧美va在线观看| 91在线观看视频| 97超碰国产精品女人人人爽 | 女同一区二区| 国产天堂在线播放| 偷窥自拍亚洲色图精选| 欧美日韩国产精品一区二区不卡中文| 国产精品永久免费观看| 国产午夜在线视频|