国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

媲美OpenAI事實性基準(zhǔn),這個中文評測集讓o1-preview剛剛及格

人工智能 新聞
評測集涵蓋 99 個主題和領(lǐng)域,能夠全面檢測模型在各個領(lǐng)域的知識水平,可以幫助各個領(lǐng)域的研究者識別最適合其特定需求的模型。

核心作者包括賀彥程,李世龍,劉佳恒,蘇文博。作者團(tuán)隊來自淘天集團(tuán)算法技術(shù) - 未來生活實驗室團(tuán)隊。為了建設(shè)面向未來的生活和消費方式,進(jìn)一步提升用戶體驗和商家經(jīng)營效果,淘天集團(tuán)集中算力、數(shù)據(jù)和頂尖的技術(shù)人才,成立未來生活實驗室。實驗室聚焦大模型、多模態(tài)等 AI 技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類 AI Native 應(yīng)用,引領(lǐng) AI 在生活消費領(lǐng)域的技術(shù)創(chuàng)新。

如何解決模型生成幻覺一直是人工智能(AI)領(lǐng)域的一個懸而未解的問題。為了測量語言模型的事實正確性,近期 OpenAI 發(fā)布并開源了一個名為 SimpleQA 的評測集。而我們也同樣一直在關(guān)注模型事實正確性這一領(lǐng)域,目前該領(lǐng)域存在數(shù)據(jù)過時、評測不準(zhǔn)和覆蓋不全等問題。例如現(xiàn)在大家廣泛使用的知識評測集還是 CommonSenseQA、CMMLU 和 C-Eval 等選擇題形式的評測集。

為了進(jìn)一步同步推進(jìn)中文社區(qū)對模型事實正確性的研究,淘天集團(tuán)算法技術(shù) - 未來生活實驗室團(tuán)隊提出了 Chinese SimpleQA,這是第一個系統(tǒng)性地全面評估模型回答簡短事實性問題能力的中文評測集,可以全面探測模型在各個領(lǐng)域的知識水平。具體來說,Chinese SimpleQA 主要有六個特點:

  1. 中文:專注于中文語言,并特地包含中國文化等特色知識相關(guān)的問題
  2. 全面性:涵蓋 6 個大類主題(中華文化、人文與社會科學(xué)、自然科學(xué)、生活藝術(shù)與文化、工程技術(shù)與應(yīng)用科學(xué)、社會)和 99 個子類主題
  3. 高質(zhì)量:我們進(jìn)行了全面且嚴(yán)格的質(zhì)量控制,有包括 52 位外包和 6 位算法工程師的參與
  4. 靜態(tài):參考答案都是在時間上保持不變的,保證了評測集的長期有效性,可以長期作為模型知識能力的評估基準(zhǔn)
  5. 易于評估:評測數(shù)據(jù)的問題和答案非常簡短,評測可以基于任意的模型,能夠以較低成本和較快速度進(jìn)行高一致性的評測。
  6. 有難度和區(qū)分度:我們評估了 40 + 國內(nèi)外開源和閉源大模型。目前在評測集上 o1-preview 都僅剛過及格線 (正確率 63.8), 其他大部分模型都處于低分狀態(tài),其中 GPT-4o mini 僅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 僅 11.2 和 11.1 的準(zhǔn)確率。

基于中文 SimpleQA,我們對現(xiàn)有 LLM 的事實性能力進(jìn)行了全面的評估。并維護(hù)一個全面的 leaderboard 榜單。同時我們也在評測集上實驗分析了推理 scaling law、模型校準(zhǔn)、RAG、對齊稅等研究問題,后續(xù)本評測集都可以作為這些方向的重要參考之一。

總之,我們希望 Chinese SimpleQA 能幫助開發(fā)者深入了解其模型在中文領(lǐng)域的事實正確性,同時也能為他們的算法研究提供重要基石,共同促進(jìn)中文基礎(chǔ)模型的成長。

圖片

圖片


  • 論文鏈接:https://arxiv.org/abs/2411.07140
  • 項目主頁:https://openstellarteam.github.io/ChineseSimpleQA
  • 數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
  • 代碼倉庫:https://github.com/OpenStellarTeam/ChineseSimpleQA

一、數(shù)據(jù)集構(gòu)建

圖片

在構(gòu)建 Chinese SimpleQA 數(shù)據(jù)集的過程中,我們采用了嚴(yán)格且周密的流程,確保數(shù)據(jù)質(zhì)量達(dá)到高標(biāo)準(zhǔn)。主要分為自動化構(gòu)建和質(zhì)量控制兩個階段:

1. 自動化構(gòu)建階段,主要包括五個步驟:

(1)知識內(nèi)容提取與過濾:我們從維基百科等多種知識領(lǐng)域中收集大量富含知識的文本內(nèi)容,并利用規(guī)則和質(zhì)量評估模型篩除低質(zhì)量數(shù)據(jù)。

(2)自動生成問答對:制定問題標(biāo)準(zhǔn),基于高質(zhì)量的知識內(nèi)容,利用大型語言模型(LLM)基于標(biāo)準(zhǔn)條例自動生成問題與答案對。其中大概制定了 9 條嚴(yán)格的細(xì)則,包括:答案必須唯一且確定、答案不應(yīng)隨時間變化等。

(3)自動質(zhì)量驗證:通過 LLM 根據(jù)預(yù)先設(shè)定的標(biāo)準(zhǔn)對生成的問答對進(jìn)行初步篩選,剔除不符合要求的樣本。

(4)結(jié)合工具驗證:引入 RAG 和 Agent 的方式,結(jié)合外部檢索工具收集驗證信息,指導(dǎo) LLM 進(jìn)一步準(zhǔn)確評估答案的事實正確性。

(5)難度級別過濾:過濾掉過于簡單的樣本,提升數(shù)據(jù)集的難度,以發(fā)現(xiàn) LLM 的普遍存在的知識邊界。具體來說,如果一個問題四個模型都能正確回答,則認(rèn)為該問題過于簡單并予以舍棄。

2. 質(zhì)量控制階段,我們引入了嚴(yán)格的人工驗證流程:

(1)每條數(shù)據(jù)在隱藏答案后交由兩位獨立的標(biāo)注員進(jìn)行標(biāo)注,首先判斷問題是否符合預(yù)定標(biāo)準(zhǔn)。不符合的問題將被淘汰。然后要求每位標(biāo)注員結(jié)合權(quán)威來源(如維基百科、百度百科)的相關(guān)信息填寫答案,同時需要提供至少兩個參考鏈接,確保答案可溯源。

(2)若兩位標(biāo)注員的答案不一致,由第三位標(biāo)注員進(jìn)行復(fù)審,最終確定答案。

(3)安排多名算法工程師進(jìn)行多輪抽檢與反饋,同時不斷細(xì)化標(biāo)準(zhǔn)

整個構(gòu)建和標(biāo)注過程中,初步生成了 10,000 對問答對,經(jīng)過難度評估和多輪驗證,最終只保留了約 3,000 對高質(zhì)量的問答對,確保了數(shù)據(jù)集的高質(zhì)量和嚴(yán)謹(jǐn)性,希望為評估 LLM 的事實正確性提供正確的引導(dǎo)。

二、評測指標(biāo)

評測方式和指標(biāo)直接遵循 OpenAI 的方式,主要有以下四個指標(biāo):

圖片

三、評測榜單

我們評估了 17 個閉源模型和 24 個開源模型,排名榜如下:

圖片

不同模型在 Chinese SimpleQA 上的結(jié)果。關(guān)于指標(biāo),Correct(CO)、Not attempted(NA)、Incorrect(IN) 和 Correct given attempted(CGA) 分別表示 “回答正確率”、“未回答率”、“回答錯誤率” 和 “回答精確率”。關(guān)于主題,Chinese Culture(CC)、Humanities(HU)、Engineering, Technology、Applied Sciences(ETAS)、Life, Art, and Culture(LAC)、Society(SO) 和 Natural Science(NS) 分別表示 “中華文化”、“人文與社會科學(xué)”、“工程、技術(shù)與應(yīng)用科學(xué)”、“生活、藝術(shù)與文化”、“社會” 以及 “自然科學(xué)”。

總的來看,o1-preview 表現(xiàn)最佳,同時有幾個近期專注于中文的閉源大模型(如 Doubao-pro-32k 和 GLM-4-Plus)的表現(xiàn)與 o1-preview 相近。從榜單表現(xiàn)來看,首先,“mini” 系列模型(如 o1-mini, GPT-4o-mini)的表現(xiàn)明顯不如其對應(yīng)的大模型(如 o1-preview, GPT-4o),這表明 “mini” 系列在記憶事實知識方面有明顯的下降。其次通常越大的模型表現(xiàn)更好,例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未嘗試(NA)” 項上得分較高,比如 o1-mini 和 InternLM2.5-1.8B,其 NA 分?jǐn)?shù)分別為 20.5 和 31.2,遠(yuǎn)高于對應(yīng)大模型的得分(如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7)。另外,各模型在不同主題上的表現(xiàn)差異顯著,特別是中文社區(qū)的大模型(如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek)在 “中國文化(CC)” 主題上明顯優(yōu)于 GPT 或 o1 模型,而在科學(xué)相關(guān)主題(如 ETAS 和 NS)上,o1 則具有顯著優(yōu)勢。

四、實驗發(fā)現(xiàn)

我們還在 Chinese SimpleQA 上探索了 inference scaling law、模型校準(zhǔn)、RAG、對齊稅等熱門研究課題(具體詳見論文)。得出了以下幾個有見地的發(fā)現(xiàn):

1. 更大規(guī)模的模型有更好的校準(zhǔn)性能

我們要求模型在回答問題時提供 0 到 100 的信心指數(shù),以衡量模型的校準(zhǔn)程度,即模型對其答案的自信程度。理想的校準(zhǔn)模型應(yīng)該是信心指數(shù)與答案的實際準(zhǔn)確率相匹配。實驗結(jié)果顯示,GPT-4o 的校準(zhǔn)優(yōu)于 GPT-4o-mini,而 o1-preview 優(yōu)于 o1-mini。在 Qwen2.5 系列中,校準(zhǔn)效果依次為 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B,說明更大規(guī)模的模型具有更好的校準(zhǔn)性能。此外,對于所有評估的模型,當(dāng)信心指數(shù)大于 50 時,它們的信心水平都低于了完美校準(zhǔn)線,表明它們普遍對自身回答的準(zhǔn)確性過于自信。

圖片

2.O1 提出的推理 scaling law 在事實類 QA 上也成立

我們研究了不同模型在增加推理計算資源和回答準(zhǔn)確性之間的關(guān)系。具體方式是從 Chinese SimpleQA 中隨機抽取 50 個樣本,每個樣本要求模型獨立回答 100 次。通過 Best-of-N 方法隨著推理次數(shù)的增加來計算模型的回答準(zhǔn)確性。結(jié)果表明,隨著推理次數(shù)的增加,所有模型的響應(yīng)準(zhǔn)確性都提高,并最終達(dá)到上限。這一現(xiàn)象與 OpenAI o1 發(fā)布時提出的結(jié)論表現(xiàn)一致。

圖片

3.RAG 仍是快速提升模型能力的捷徑

我們同時在 Chinese SimpleQA 上探討了檢索增強生成(RAG)策略在提升 LLMs 事實正確性方面的效果。我們基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系統(tǒng)。結(jié)果表明,所有模型在配置 RAG 后準(zhǔn)確性都顯著提高,例如,Qwen2.5-3B 的性能提升了三倍多。同時,在配置 RAG 后各模型之間的性能差異也顯著減少,例如,帶有 RAG 的 Qwen2.5-3B 與 Qwen2.5-72B 的 F-score 相差僅 6.9%。這表明 RAG 可顯著縮小模型性能差距,使得較小模型在 RAG 支持下也能獲得高性能。因此,RAG 仍是增強 LLMs 事實性的一條強有效的捷徑。

圖片

4. 大部分模型都有明顯的 “對齊稅” 問題

我們對比分析了預(yù)訓(xùn)練模型與對齊后的模型在評測集上的表現(xiàn)。結(jié)果顯示,盡管不同模型在后期訓(xùn)練后表現(xiàn)各異,但大多數(shù)模型的表現(xiàn)都顯著下降。其中,Baichuan2 系列模型下降最為明顯,Baichuan2-7B 和 Baichuan2-13B 的 F-score 分別下降了 47% 和 28%。這反映出當(dāng)前大多數(shù)大語言模型的對齊訓(xùn)練在幻覺緩解方面仍有明顯不足,也突顯了評測集的價值。

圖片

圖片

評測集涵蓋 99 個主題和領(lǐng)域,能夠全面檢測模型在各個領(lǐng)域的知識水平,可以幫助各個領(lǐng)域的研究者識別最適合其特定需求的模型。目前 o1-preview 模型表現(xiàn)最為全面,但是評測結(jié)果展示了許多其他模型在特定垂直領(lǐng)域的強有力的表現(xiàn)(具體詳見論文和榜單)。

最后,歡迎廣大研究者使用我們的評測集進(jìn)行實驗和研究。淘天集團(tuán)算法技術(shù) - 未來生活實驗室團(tuán)隊將持續(xù)更新和維護(hù)數(shù)據(jù)集及評測榜單,為中文社區(qū)的發(fā)展貢獻(xiàn)力量。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-09-23 16:00:00

AI模型測評

2024-12-27 09:00:00

訓(xùn)練模型數(shù)據(jù)

2025-01-02 09:53:17

2024-11-15 09:36:07

2024-11-21 12:43:06

2024-12-20 14:30:00

2025-01-23 10:45:52

2025-02-11 16:17:42

2024-06-21 13:04:43

2025-03-20 09:46:06

OpenAI模型AI

2025-01-13 10:30:59

2024-11-07 15:40:00

2024-09-13 06:32:25

2025-04-18 09:13:00

2025-03-20 10:20:16

2025-02-06 14:28:16

2025-02-19 15:40:00

OpenAI編程模型

2025-02-13 08:30:00

2025-05-14 10:09:12

2025-05-08 16:40:27

OpenAICEOFacebook
點贊
收藏

51CTO技術(shù)棧公眾號

亚洲乱码国产乱码精品精| 久久99精品国产91久久来源| 日韩 欧美 高清| 亚洲韩国日本中文字幕| 精品动漫av| 又黄又爽的视频在线观看| 色哟哟网站入口亚洲精品| 美国一区二区三区在线播放| 麻豆tv免费在线观看| 亚洲综合中文字幕在线| 亚洲成a天堂v人片| 日韩欧美ww| www.日本一区| 亚洲18私人小影院| 亚洲国产成人私人影院tom| 国产视频网站一区二区三区| 男人插女人视频在线观看| 亚洲欧美国内爽妇网| 国产在线不卡视频| 日本黄色免费在线| 亚洲精品中字| 亚洲国产日韩欧美在线99| 蜜桃视频免费观看一区| 92久久精品| 亚洲区一区二区三区| 欧美精品一区二区三区很污很色的 | 久久精品二区亚洲w码| 91高清在线观看视频| 欧美在线一二三区| 亚洲国产高清福利视频| 蜜桃精品在线观看| 美女网站在线看| 日韩xxxx视频| 欧美国产日韩精品| 亚洲视频在线一区| 欧美mv日韩| 成人高清在线| 日韩精品久久一区| 亚洲欧美国产精品va在线观看| 成人99免费视频| 国产亚洲精品美女久久| 动漫成人在线| 国产区一区二区三区| 欧美精品一区二区三区在线播放| 国模少妇一区二区三区| 国产精品成人国产| 99re6在线视频| 国产一区二中文字幕在线看| 欧美日免费三级在线| 视频在线观看国产精品| 456亚洲精品成人影院| 丰满少妇在线观看| 成人欧美一区二区三区黑人孕妇| 在线播放日韩导航| 夫妻av一区二区| 欧美18免费视频| 久久久久久久影视| 亚洲资源视频| 韩剧1988免费观看全集| 91精品91久久久中77777| 美女视频黄频大全不卡视频在线播放| 欧洲美女精品免费观看视频| 四虎免费av| 精品产品国产在线不卡| 在线视频欧美日韩精品| 一二三四社区欧美黄| 麻豆九一精品爱看视频在线观看免费| 有码av在线| 日韩区国产区| 午夜精品一区二区三区av| 欧洲激情一区二区| 成人一区二区三区| 亚洲电影影音先锋| 欧美电影网址| 一二三四社区在线视频6| 中文字幕中文字幕在线中一区高清 | 亚洲国产成人在线| 亚洲成色精品| 亚洲国产伊人| 日韩二区三区| 日韩精品视频在线观看视频| 国产情人节一区| 亚洲天堂日韩电影| 精品女厕一区二区三区| 极品销魂美女一区二区三区| 精品在线91| 免费v片在线观看| 污污网站免费看| 久久综合一区| 午夜精品久久久久久久久久久久 | 日韩中文字幕欧美| 欧美日韩色婷婷| 成人动漫中文字幕| 在线播放精品| 亚洲高清999| 国内老司机av在线| 中文字幕视频在线| 青青在线视频观看| 伊人婷婷久久| dy888夜精品国产专区| 国产69精品99久久久久久宅男| 精品国产sm最大网站| 图片区小说区区亚洲影院| 9人人澡人人爽人人精品| 蘑菇福利视频一区播放| 国产日产一区| 免费一区二区三区在线视频| 欧美aaaxxxx做受视频| 新的色悠悠久久久| 久久午夜夜伦鲁鲁一区二区| 欧美aaaaa喷水| 欧美黑人巨大精品一区二区| 欧美mv日韩mv国产网站app| 午夜精品免费在线观看| 成人高清免费观看| 怡红院精品视频在线观看极品| www.久久热| 国产理论在线观看| 免费看的国产视频网站| 午夜久久久久久久久久久| 国产一区二区免费在线观看| 国内精品视频一区| 日韩毛片在线看| 欧美性生交xxxxx久久久| 91麻豆成人久久精品二区三区| 欧美精品偷拍| 不卡中文字幕| 国产成人视屏| 日本乱码一区二区三区不卡| 韩国中文字幕2020精品| 人人做人人爽| 欧美一区二区三区成人久久片 | a级影片在线| 色老板在线观看| 国产人妻777人伦精品hd| 免费在线观看一区二区| 亚洲free性xxxx护士白浆| 欧美激情精品久久久久久蜜臀| 亚洲精品美女久久久久| 欧美日韩一区二区在线观看视频| 亚洲黄色在线视频| 久久久影视传媒| 国产一区二区三区免费看 | 999精品视频在线| 免费久久久久久| 好吊色欧美一区二区三区四区| 日韩美女中文字幕| 欧美黑人xxxx| 综合网中文字幕| 亚洲视频在线播放| 日韩欧美电影一区| 日本道精品一区二区三区| 亚洲综合丁香婷婷六月香| 国产精品亲子伦对白| 91免费精品国自产拍在线不卡| 不卡av免费在线观看| 激情文学综合插| 久久99最新地址| 日韩高清一区二区| 免费视频一区| 日本不卡免费一区| 999久久久91| 精品久久久久中文字幕小说| 网红女主播少妇精品视频| 日韩成人视屏| 精品国产一区二| 91蜜桃臀久久一区二区| **国产精品| 亚洲精品aa| 亚洲精品自拍| avtt久久| 欧美美女啪啪| 亚洲都市激情| 九九综合久久| 超碰成人久久| 天天综合一区| 欧美一区影院| 亚洲电影在线| 六月天综合网| 久久精品国产精品亚洲精品| 久99久精品视频免费观看| 国产suv精品一区二区883| 成人av电影免费在线播放| 国产午夜精品久久久久久免费视 | 久久超碰97中文字幕| 日韩电影在线观看电影| 免费人成在线不卡| 国产精品自拍在线| 91亚洲男人天堂| 99久久99精品久久久久久| 亚洲欧美日本韩国| 亚洲国产综合色| 在线观看日韩精品| 日韩欧美在线影院| 亚洲男人天天操| 高清欧美电影在线| 国产精品精品久久久| 亚洲综合中文字幕在线观看| 国模精品娜娜一二三区| 在线精品日韩|