国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

67個主題,11528 個問題,全新中文大模型多任務基準CMMLU發布

人工智能 新聞
如何評估大模型(LLM)的語言能力和知識儲備一直備受學術界和工業界的關注。

MBZUAI,上海交通大學,微軟亞洲研究院合作完成了一個全面的中文大模型基準——CMMLU。

它涵蓋了 67 個主題,涉及自然科學、社會科學、工程、人文、以及常識等,可以全面地評估大模型在中文知識儲備和語言理解上的能力。他們測試了近 20 個先進的大模型包括最新的 GPT4,ChatGLM2 和 Baichuan-7B 等,發現大多數現有模型的難以達到 50%準確率,而隨機準確率為 25%。

圖片圖片

  • 論文地址:https://arxiv.org/abs/2306.09212
  • 數據和評估代碼:https://github.com/haonan-li/CMMLU

本文所提出的 CMMLU,這是一個全新全面的中文評估數據集,旨在專門評估 LLM 在中文語言和文化背景下的高級知識和推理能力。

CMMLU 涵蓋了 67 個主題(如圖 1 所示),從小學到大學或專業水平。包括自然科學,以及人文和社會科學領域的學科,更包含了許多具有中國特色的內容,比如 「中國飲食文化」,「名族學」,「中國駕駛規則」等等。研究團隊已完全公開了數據,社區可以自由方便地利用和評估他們的模型在是否適用于以中國為核心的中文人群。完整的學科列表、每個學科測試的概念數量以及問題和答案長度的統計信息均在論文中提供。

圖片圖片

為了更深入地了解 LLM 處理中文知識的能力,研究進行了全面的分析實驗。研究首先研究模型在各個學科上的表現。所有模型在不同學科上的表現存在不平衡,人文社科學科得分相對較高,而中國特定主題和自然科學得分較低。為了進一步研究這個問題,研究探索了思路鏈提示詞(Chain-of-Thought)和少樣本示例(Few-shot)對于幫助模型理解任務和提高推理能力的有效性。此外,團隊研究了模型大小對性能的影響,分析了問題長度與難度之間的關系,并探索了現有語言模型尚未有效解決的兩種特定問題類型。

CMMLU 測試基準

數據收集

CMMLU 數據集包含 11,528 個問題,涵蓋了 67 個學科。每個學科至少有 105 個問題,研究將其分 為包含 5 個問題的訓練樣本集(few-shot development set),以及包含超過 100 個問題的測試集(test set)。

數據格式

數據集中的每個問題都是一個包含 4 個選項的單選題,圖 2 是一個附加了提示的示例。對于數學公式、化學式和一些其他數學表達式,他們使用約一半的 Latex 和一半的純文本的混合方式,其中只有在一個表達式被廣泛使用且不易產生歧義時,才允許使用純文本(由注釋者判斷)。例如,水的化學式可以寫為純文本 「H2O」,或者使用 Latex 格式「 $H_{2}O$」。

實驗

為了在中文語境下提供現有開源 LLM 在語言理解方面的概覽,研究評估約 20 個不同規模、語言方向和階段(預訓練或微調)的先進 LLM,并且分析了它們在這個以知識為中心的基準測試上的性能,并研究了可能影響 LLM 性能的幾個因素。

實驗設置

研究的目標是評估 LLM 在預訓練和 / 或微調過程中所利用的知識。對于開源模型,研究遵循 MMLU 的方法獲取提示后的下一個標記的概率,并在 A’、B’、C’和 D’中選擇概率最高的選項作為模型的選擇。對于 ChatGPT 等非開源模型,研究生成輸出并使用一系列正則表達式提取模型的選擇。如果正則表達式沒有匹配到任何內容,他們會隨機選擇 A’、B’、C’、D’中的一個選項作為答案,以進行模型間的公平比較。研究對零樣本(不輸入示例)和少樣本(輸入少量示例)的設置都進行了實驗。

提示詞

研究使用短語 「以下是關于 [主題] 的單項選擇題,請直接給出正確答案的選項」引入每個問題。對于零樣本評估,研究直接在提示后呈現問題。對于少樣本評估,他們在問題之前提供多達 5 個帶有答案的示例。提示以短語「答案是:」結尾,如圖 2 中的示例所示。如果帶有少樣本示例的文本長度超過模型的最大長度,他們會動態刪除最長的(按子標記計算)示例。(最新榜單請看 github)

圖片圖片

主要結果

表格 1 顯示了在 five-shot 設置下一些模型的性能。可以看出:GPT4 是整體性能最佳的模型,準確度達到 70.95%;在中文特定的 LLM 中,ChatGLM2-6B 模型規模最小卻展現出最佳的整體性能,Baichuan-7B 僅次于 ChatGLM2。

從學科類型的角度來看,相對于 STEM 學科,所有模型在人文學科、社會科學和其他學科中表現出更好的性能,他們認為這是由于 STEM 主題的固有難度所致。此外,雖然所有模型在中國特定類別中的表現相對較弱,略微超過其在 STEM 學科中的表現,但明顯落后于其他類別。

圖片圖片

研究將中文模型 ChatGLM 與多語模型 ChatGPT 在每個學科上進行了比較,并對學科進行了分類,并在圖 3 中呈現了結果。具體的數值結果請在論文中查閱。

從圖中可以看出,模型的性能并不平衡,雖然在某些學科(如世界歷史)表現出色,但在其他學科(如數學)中表現較差。研究團隊觀察到,對于 ChatGLM 和 ChatGPT 來說,古漢語和大學精算學是最具挑戰性的學科,其結果接近隨機。而法律與道德基礎則是兩個模型中最容易的學科之一。

在大多數情況下,ChatGPT 的性能明顯優于 ChatGLM。比如說對于機器學習和計算機安全,ChatGPT 的準確度幾乎是 ChatGLM 的兩倍。然而,在中國特定類別中,ChatGLM 的性能明顯接近 ChatGPT。它甚至在中國歷史和高中政治中的表現超過了 ChatGPT。他們認為這是因為與 ChatGPT 相比,ChatGLM 在特別是中國特定類別中遇到了不同的數據來源。這些發現表明,為了適應具有不同語言背景的用戶,找到適合的數據來源對于多語種 LLM 非常重要。

分析

為了全面了解 LLM 在不同條件下的性能,該研究探究了三個可能提升模型性能的因素和三個可能 降低模型性能的因素。對于大多數分析,他們使用了前 3 個多語種模型:ChatGPT、Falcon-40B、LLaMA-65B,以及前 2 個中文模型:ChatGLM-6B 和 BatGPT-15B。

圖片

 (具體分析細節請參看論文)

(1) 使用逐步思考的提示詞:

研究將提示從 「請直接給出正確答案的選項」修改為 「逐步分析并選出正確答案」。結果呈現在表格 2 中,所有子類別的細分結果請查閱論文。

圖片圖片

研究發現,對于沒有進行微調的模型(LLaMA 和 Falcon),使用逐步思考的提示并沒有 明顯提高 STEM 和整體準確度。而對于進行了微調的模型(在表格 2 的第一部分),中文導向的模型(ChatGLM 和 BatGPT)的整體性能下降了約 3%,ChatGPT 的性能也略微下降了 0.2%。這些結果表明,逐步思考的提示確實有助于這些模型回答與 STEM 相關的問題。

(2) 增加輸入示例的數量: 

圖 4 展示了使用不同模型在不同數量少樣本示例的平均準確率。明顯可以看出,當提供一些示例時,大多數模型的性能有所提高。盡管隨著示例數量的增加可能會出現波動,但整體趨勢顯示出性能的提升。然而,對于 ChatGLM 和 BLOOMZ 模型,0-shot 設置的性能優于少樣本設置。研究團隊推測這是因為這些模型已經通過預訓練或微調過程廣泛利用了類似的問題和答案對,已經具備了全面理解問題的能力,不需要示例的支持 [3]。

(3) 在同一模型系列中使用更大尺寸的模型:

圖片圖片

研究使用 LLaMA 系列模型的四個不同規模進行了考察:7B、13B(訓練于 1.0T tokens)、30B、65B(訓練于 1.4T tokens)。這些模型的 0-shot 和 5-shot 設置的整體準確率如圖 5 所示。從結果中,研究團隊觀察到隨著模型規模近似翻倍,準確率穩定增加約 5 個百分點。是否有可能擁有 500B 參數的 LLaMA 模型可以達到與 ChatGPT 相當的性能水平?而最近的研究表明,具有更少參數但使用高質量訓練數據的模型可以達到與一些更大模型(Falcon-40B 對比 LLaMA-65B)相當甚至更好的結果 [1]。如何高效地進一步提升 LLM 的性能仍然是一個未解決的問題。

圖片

(4) 長度較長的問題: 

研究將模型的真實標簽置信度(四個選項中的 softmax)視為問題難度的估計,并在圖 6 中比較了 Falcon-40B 的問題難度與問題長度之間的關系。研究進行了回歸分析,發現問題長度與真實標簽置信度之間的相關性略微正相關。

圖片

 (5) 含有否定詞的問題:

先前的研究指出語言模型可能在處理否定句時遇到困難 [2]。為了研究該問題在中文語境中是否存在,本文比較了不同模型在包含否定詞和不包含否定詞的問題子集上的性能。結果在表格 3 中展示。

所有模型在包含否定詞的問題上的表現相對較差,強調了大型語言模型的這一常見限制。有趣的是,在沒有進行微調的模型上,少樣本示例緩解了否定問題的性能下降。這使研究團隊推斷,這些模型(LLaMA-65B 和 Falcon-40B) 在預訓練過程中已經獲得了相當多的知識。隨后的指導性微調或通過人類反饋進行強化學習可以幫助它們有效地解決否定問題。

圖片圖片

(6) 含有子選項的問題:

在各種中文考試中,有一種典型的問題類型稱為 「子選項問題」。這些問題包括一個主要陳述和多個子選項,并詢問子選項的數量、順序或選擇,需要模型具備更深層的推理和推斷能力(見圖 7 中的示例)。表格 4 顯示了評估結果。

所有這些 LLM 在子選項問題上的表現較弱。ChatGPT 在子選項問題上的性能顯著下降約 20%,而其他模型的下降范圍在 5% 至 15% 之間。對比多語言模型和中文定向模型,子選項問題與其他問題之間的性能差距較大超過 10%,后者性能差距在 10% 以下。這也許是因為訓練數據中的這種情況在中文語言中更為常見。

結論

本文介紹了 CMMLU,這是一個具有開創性意義的基準測試,旨在評估中文多任務語言理解能 力。研究的實驗發現揭示了現有大型語言模型中存在的改進機會。通過廣泛的分析,研究確定了影響模型性能的幾個因素,并提出了改進 LLM 的可行方向。研究團隊相信。他們的基準數據集和分析洞察力將使研究人員能夠有效評估和設計中文 LLM。

更多的研究內容可以查閱原始論文。

責任編輯:張燕妮 來源: PaperWeekly
相關推薦

2024-11-04 12:48:12

2024-12-11 13:30:00

2013-08-13 14:39:29

多任務下載

2022-09-28 15:34:06

機器學習語音識別Pytorch

2024-02-02 21:53:58

AI訓練

2024-08-14 14:06:01

2024-07-15 07:52:00

2022-12-12 10:35:00

2022-06-13 10:43:11

谷歌模型學者

2022-06-08 06:38:00

iPadOS 16SafariiCloud

2015-07-14 16:15:22

2025-10-15 14:02:29

AI模型自動駕駛

2012-05-18 13:26:11

HTC

2023-12-08 07:48:42

GPT模型時間序列

2025-01-22 16:57:32

字節跳動豆包大模型

2025-07-17 09:21:11

2023-07-05 09:57:11

2021-04-21 15:22:40

機器人人工智能系統
點贊
收藏

51CTO技術棧公眾號

亚洲欧洲av另类| 亚洲视频在线观看三级| 高清视频欧美一级| 26uuu亚洲电影在线观看| 亚洲福利一区二区| 亚洲综合欧美激情| 成人免费毛片片v| 神马影院我不卡| 综合五月婷婷| 国产精品电影久久久久电影网| 欧美天堂一区| 日韩精品在线免费观看| 日本在线免费| 日韩欧美精品中文字幕| 日本1区2区| 1024精品合集| 成人网18免费看| 欧美国产亚洲另类动漫| 国产成人a亚洲精v品无码| 国产成人精品一区二| 特级黄色录像片| 激情六月婷婷综合| 正义之心1992免费观看全集完整版| 亚洲高清网站| 精品视频一区二区三区四区| 国一区二区在线观看| 亚洲japanese制服美女| 欧美一区视频| 国产精品一区视频| 国产美女诱惑一区二区| 欧美lavv| 日本午夜精品视频在线观看| 日韩欧美在线观看强乱免费| 丝袜美腿成人在线| 亚洲一区不卡在线| 国产福利一区二区三区视频在线| 97久久国产亚洲精品超碰热| 国产精品白丝jk白祙喷水网站| 欧美日韩中文字幕在线播放| 成人av在线影院| 免费在线观看日韩视频| 久久久久久久综合狠狠综合| 又黄又免费的网站| 黄色成人在线播放| 国产婷婷视频在线| 亚洲热线99精品视频| 国产日本亚洲| 国产成人精品av在线| 欧美三级在线| 亚洲一区二区三区加勒比| 国产91精品欧美| av毛片免费看| 欧美卡1卡2卡| 992tv国产精品成人影院| 国外色69视频在线观看| 亚洲一区二区| 欧美做受777cos| 日本一区二区免费在线观看视频 | 美女一区网站| 欧美xxxx综合视频| 国产综合久久久| 看高清中日韩色视频| 国精产品一区一区三区mba视频| 欧美激情国产精品日韩| 亚洲国产日韩a在线播放| 青春草视频在线| 欧美激情在线观看视频| 伊人色**天天综合婷婷| 欧美性潮喷xxxxx免费视频看| 亚洲男人的天堂在线观看| 精品51国产黑色丝袜高跟鞋| 久久国产精品久久久久久| 欧美日韩亚洲一区二区三区在线| 日本福利视频在线观看| 一区二区三区在线视频免费 | 国产精品亲子伦av一区二区三区| 国产精品xxx视频| 玖玖精品视频| 中文字幕桃花岛| 亚洲精品在线三区| 真实原创一区二区影院| 日本在线播放不卡| 国产亚洲成aⅴ人片在线观看| 午夜激情视频在线| 欧美黑人又粗大| 久久aⅴ国产紧身牛仔裤| 一区二区三区韩国| 精品99一区二区三区| 成人三级视频| 丁香花在线影院观看在线播放| 欧美特级www| 亚洲大奶少妇| 色综合视频二区偷拍在线| 国产精品国产三级国产三级人妇| 国产精品刘玥久久一区| 热99在线视频| 国产成人综合在线| 国产人成网在线播放va免费| 国产成人一区二区三区| 99久久免费精品高清特色大片| 美女av在线播放| 国产精品爽爽爽| 91在线观看高清| 97久久人人超碰caoprom| 亚洲a级在线观看| 亚洲欧洲av一区二区三区久久| 最新日韩一区| 一区二区三区四区欧美| 欧美色图在线观看| 精品久久久亚洲| 激情内射人妻1区2区3区| 亚洲乱码国产乱码精品精天堂| 亚洲乱码久久| 中文字幕不卡免费视频| 欧美国产在线视频| eeuss国产一区二区三区| 激情av在线播放| 国产精品二区在线观看| 亚洲永久免费av| 人人精品亚洲| 啊啊啊国产视频| 另类天堂视频在线观看| 成人免费视频播放| 亚洲啊v在线| 亚洲国产精品一区在线观看不卡| 欧美图片一区二区三区| 韩日欧美一区| 四虎影视在线播放| 亚洲qvod图片区电影| 欧美午夜激情视频| 亚洲激情中文| 国产精品麻豆一区二区三区| 亚洲影院色无极综合| 一本到三区不卡视频| 亚洲色图网站| av电影在线观看| 久久青青草原一区二区| 51精品秘密在线观看| 国产精品久久久久久久免费软件| 国产精品久久久久久久龚玥菲 | 视频一区三区| 欧美成人vr18sexvr| 久久蜜桃精品| 黄页在线观看免费| 一级黄色免费在线观看| 亚洲精品电影网站| 国产精品一区二区在线播放| 国产直播在线| 日韩精品手机在线观看| 在线观看欧美成人| 久久色在线观看| 欧美做受69| 亚洲高清福利| 国产精品初高中精品久久| 欧美精品电影在线播放| 久久国产精品露脸对白| 国产成+人+综合+亚洲欧美| 久久婷婷国产91天堂综合精品| 91a在线视频| 日本韩国精品在线| 蜜桃av一区二区三区电影| 高清不卡av| 色www免费视频| 亚洲在线www| 日韩欧美中文字幕制服| 成人福利电影精品一区二区在线观看| 高清一区二区三区av| 国产三级免费观看| 国产一区国产精品| 亚洲欧美日韩爽爽影院| 欧美极品美女视频| 97精品国产一区二区三区| 国产一二区在线观看| 女人被男人躁得好爽免费视频| 国内精品一区二区三区四区| 日韩欧美中文字幕在线观看| 美日韩一级片在线观看| 99久久香蕉| 久草资源在线| 不要播放器的av网站| 成人av男人的天堂| 亚洲人成五月天| 亚洲最大色网站| 蜜臀av一级做a爰片久久| 国偷自产视频一区二区久| av一区在线观看| 精品欧美一区免费观看α√| 国产日韩欧美在线观看| 日韩精品免费在线视频| 亚洲精品综合在线| 美女视频黄 久久| 国产精品日韩精品中文字幕| 538在线观看| 在线看片黄色| 9191国产视频| 国产精品7m视频| 国产亚洲精品美女久久久| 午夜av一区二区三区| 粉嫩av亚洲一区二区图片| 91综合久久一区二区|