国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型走捷徑「刷榜」?數(shù)據(jù)污染問題值得重視

人工智能 新聞
近日,我們關(guān)注到朋友圈和知乎社區(qū)對大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

生成式 AI 元年,大家的工作節(jié)奏快了一大截。

特別是,今年大家都在努力卷大模型:最近國內(nèi)外科技巨頭、創(chuàng)業(yè)公司都在輪番推出大模型,發(fā)布會一開,個(gè)個(gè)都是重大突破,每一家都是刷新了重要 Benchmark 榜單,要么排第一,要么第一梯隊(duì)。

在興奮于技術(shù)進(jìn)展速度之快后,很多人發(fā)現(xiàn)似乎也有些不對味:為什么排行榜第一人人有份?這是個(gè)什么機(jī)制?

于是乎,「刷榜」這個(gè)問題也開始備受關(guān)注。

近日,我們關(guān)注到朋友圈和知乎社區(qū)對大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

鏈接:https://www.zhihu.com/question/628957425

多家大模型刷榜機(jī)制曝光

該研究來自昆侖萬維的「天工」大模型研究團(tuán)隊(duì),他們上個(gè)月底把一份技術(shù)報(bào)告發(fā)布在了預(yù)印版論文平臺 arXiv 上。

論文鏈接:https://arxiv.org/abs/2310.19341

論文本身是在介紹 Skywork-13B,這是天工的一個(gè)大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓(xùn)練方法,分別針對通用訓(xùn)練和特定領(lǐng)域的增強(qiáng)訓(xùn)練。

和往常有關(guān)大模型的新研究一樣,作者表示在流行的測試基準(zhǔn)上,他們的模型不僅表現(xiàn)出色,而且在很多中文的分支任務(wù)上取得了 state-of-art 水平(就是業(yè)內(nèi)最佳)。

重點(diǎn)是,該報(bào)告還驗(yàn)證了下很多大模型的真實(shí)效果,指出了一些其他一些國產(chǎn)大模型存在投機(jī)取巧的嫌疑。說的就是這個(gè)表格 8:

圖片

在這里,作者為了驗(yàn)證目前業(yè)內(nèi)幾個(gè)常見大模型在數(shù)學(xué)應(yīng)用問題基準(zhǔn) GSM8K 上的過擬合程度,使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本,人工核對了正確性,并讓這些模型在生成的數(shù)據(jù)集,和 GSM8K 原本的訓(xùn)練集、測試集上比了比,計(jì)算了損失。然后還有兩個(gè)指標(biāo):

圖片

Δ1 作為模型訓(xùn)練期間潛在測試數(shù)據(jù)泄漏的指標(biāo),較低的值表明可能存在泄漏。沒有用測試集訓(xùn)練,那數(shù)值應(yīng)該為零。

圖片

Δ2 衡量數(shù)據(jù)集訓(xùn)練分割的過度擬合程度。較高的 Δ2 值意味著過擬合。如果沒有用訓(xùn)練集訓(xùn)練過,那數(shù)值應(yīng)該為零。

用簡單的話來解釋就是:如果有模型在訓(xùn)練的時(shí)候,直接拿基準(zhǔn)測試?yán)锩娴摹刚骖}」和「答案」來當(dāng)學(xué)習(xí)資料,想以此來刷分,那么此處就會有異常。

好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。

網(wǎng)友對此評論道,終于有人把「數(shù)據(jù)集污染」這個(gè)公開的秘密說出來了。

也有網(wǎng)友表示,大模型的智力水平,還是要看 zero-shot 能力,現(xiàn)有的測試基準(zhǔn)都做不到。

圖:截圖自知乎網(wǎng)友評論

在作者與讀者中互動(dòng)中,作者也表示,希望「讓大家更理性看待刷榜這個(gè)事情,很多模型和 GPT4 的差距還很大」。

圖:截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891

數(shù)據(jù)污染問題值得重視

其實(shí),這并不是一時(shí)的現(xiàn)象。自從有了 Benchmark,此類問題時(shí)常會有發(fā)生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標(biāo)題指出的一樣 Pretraining on the Test Set Is All You Need。

除此之外,最近人民大學(xué)、伊利諾伊大學(xué)香檳分校一個(gè)正式研究同樣指出了大模型評估中存在的問題。標(biāo)題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

論文鏈接:https://arxiv.org/abs/2311.01964

論文指出,當(dāng)前火熱的大模型領(lǐng)域讓人們關(guān)心基準(zhǔn)測試的排名,但其公平性和可靠性正在受到質(zhì)疑。其中主要的問題就是數(shù)據(jù)污染和泄露,這樣的問題可能會被無意識地觸發(fā),因?yàn)槲覀冊跍?zhǔn)備預(yù)訓(xùn)練語料庫時(shí)可能不知道未來的評估數(shù)據(jù)集。例如,GPT-3 發(fā)現(xiàn)預(yù)訓(xùn)練語料庫中包含了 Children's Book Test 數(shù)據(jù)集,LLaMA-2 的論文曾提到提取了 BoolQ 數(shù)據(jù)集中的上下文網(wǎng)頁內(nèi)容。

數(shù)據(jù)集是需要很多人花費(fèi)大量精力收集、整理和標(biāo)注的,優(yōu)質(zhì)的數(shù)據(jù)集如果優(yōu)秀到能被用于評測,那自然也有可能會被另一些人用于訓(xùn)練大模型。

另一方面,在使用現(xiàn)有基準(zhǔn)進(jìn)行評估時(shí),我們評測的大模型的結(jié)果大多是通過在本地服務(wù)器上運(yùn)行或通過 API 調(diào)用來獲得的。在此過程中,沒有嚴(yán)格檢查任何可能導(dǎo)致評估績效異常提高的不當(dāng)方式(例如數(shù)據(jù)污染)。

更糟糕的是,訓(xùn)練語料庫的詳細(xì)組成(例如數(shù)據(jù)源)通常被視為現(xiàn)有大模型的核心「秘密」。這就更難去探究數(shù)據(jù)污染的問題了。

也就是說,優(yōu)秀數(shù)據(jù)的數(shù)量是有限的,在很多測試集上,GPT-4 和 Llama-2 也不一定就沒問題。比如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 里提到過使用了它的訓(xùn)練集。

你不是說數(shù)據(jù)很重要嗎,那么用「真題」刷分的大模型,性能會不會因?yàn)橛?xùn)練數(shù)據(jù)更優(yōu)秀而變得更好呢?答案是否定的。

研究人員實(shí)驗(yàn)發(fā)現(xiàn),基準(zhǔn)泄漏會導(dǎo)致大模型跑出夸張的成績:例如 1.3B 的模型可以在某些任務(wù)上超越 10 倍體量的模型。但副作用是,如果我們僅使用這些泄露的數(shù)據(jù)來微調(diào)或訓(xùn)練模型,這些專門應(yīng)試的大模型在其他正常測試任務(wù)上的表現(xiàn)可能會受到不利影響。

因此作者建議,以后研究人員在評測大模型,或是研究新技術(shù)時(shí)應(yīng)該:

  • 使用更多來自不同來源的基準(zhǔn),涵蓋基本能力(例如文本生成)和高級能力(例如復(fù)雜推理),以全面評估 LLM 的能力。
  • 在使用評估基準(zhǔn)時(shí),在預(yù)訓(xùn)練數(shù)據(jù)和任何相關(guān)數(shù)據(jù)(例如訓(xùn)練和測試集)之間執(zhí)行數(shù)據(jù)凈化檢查非常重要。此外,還需要報(bào)告評估基準(zhǔn)的污染分析結(jié)果作為參考。如有可能,建議公開預(yù)訓(xùn)練數(shù)據(jù)的詳細(xì)組成。
  • 建議應(yīng)采用多樣化的測試提示來減少提示敏感性的影響。在基準(zhǔn)數(shù)據(jù)和現(xiàn)有預(yù)訓(xùn)練語料庫之間進(jìn)行污染分析,提醒任何潛在的污染風(fēng)險(xiǎn)也很有意義。為了進(jìn)行評估,建議每次提交都附有一份特殊的污染分析報(bào)告。

最后想說,好在這個(gè)問題開始逐漸引起大家的關(guān)注,無論是技術(shù)報(bào)告、論文研究還是社區(qū)討論,都開始重視大模型「刷榜」的問題了。

對此,你有什么看法與有效建議呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-11 08:59:21

2024-04-08 13:29:52

2013-01-10 13:27:32

iOS刷榜Android

2021-04-26 09:58:24

OneDNS

2024-09-12 14:46:03

2023-11-16 12:36:00

AI數(shù)據(jù)

2021-04-13 15:54:07

大數(shù)據(jù)人工智能技術(shù)

2021-11-02 21:24:32

人工智能走捷徑機(jī)器學(xué)習(xí)

2015-06-25 15:51:56

數(shù)據(jù)中心綠色化

2012-08-08 09:29:41

App Store刷榜

2025-04-15 08:00:00

LMArenaLlama 4大模型

2012-11-02 09:29:38

2020-09-29 09:58:30

網(wǎng)絡(luò)安全安防行業(yè)技術(shù)

2024-10-17 14:10:00

模型訓(xùn)練

2014-02-10 09:22:41

2013-01-31 16:28:26

App Store刷榜應(yīng)用商店

2012-03-08 15:49:15

2021-04-19 21:16:18

大數(shù)據(jù)大數(shù)據(jù)動(dòng)向

2025-11-04 15:53:44

AI模型數(shù)據(jù)

2012-01-16 10:41:25

安全互聯(lián)網(wǎng)IT部門
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

久久久夜色精品亚洲| 一区二区日本视频| 亚洲欧美日本另类| 91最新在线| 亚洲午夜激情av| 高清日韩av| 一区二区三区国产| 天堂影视av| 亚洲国产精品久久艾草纯爱| 黄色大秀av大片| 亚洲综合一区二区精品导航| 国产h色视频在线观看| 91色.com| 一个人看的www一区| 91片黄在线观看| 日韩av影视在线| 黄色三级电影网| 久久久久久久久久看片| 亚洲精选av| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 欧美777四色影视在线| 亚洲国产日韩在线一区模特| 自由色视频.| 色哟哟精品一区| 黄色网址在线免费播放| 亚洲精品福利在线观看| 国产精品高潮久久| 久久久久久久久久国产| 精品九九在线| 国产伦精品一区二区三区| 美女脱光内衣内裤视频久久网站| 日本福利视频网站| 国产精品天干天干在观线| 在线观看午夜看亚太视频| 欧美精品乱码久久久久久按摩| 性感女国产在线| 欧美激情第一页xxx| 久久裸体网站| 欧美精品国产精品久久久| 国产米奇在线777精品观看| 99精品在线免费视频| ...中文天堂在线一区| 2021av在线| 中文字幕日韩精品在线| 你微笑时很美电视剧整集高清不卡| 96pao国产成视频永久免费| 奇米精品一区二区三区四区| mm1313亚洲国产精品无码试看| 欧美日韩一区二区在线 | 日韩一级片免费视频| 国产精品国产三级国产普通话99| 男女污污视频在线观看| 中文字幕不卡av| 综合激情一区| 农民人伦一区二区三区| 大荫蒂欧美视频另类xxxx| 亚洲欧洲高清| 91精品视频大全| 成人少妇影院yyyy| 国产二区视频在线观看| 欧美精品免费在线| 黄色网页免费在线观看| 欧美影院精品一区| 警花av一区二区三区| 97超碰色婷婷| 色狼人综合干| 亚洲午夜激情免费视频| 最新日韩一区| 欧美专区国产专区| 久久99久久久久久久久久久| 九九在线精品| 91久久偷偷做嫩草影院| 成人免费观看av| 黄色免费在线播放| 精品国产美女在线| 亚洲深夜福利| 中国免费黄视频| 在线观看国产精品日韩av| 欧美69视频| 色婷婷综合久久久久中文字幕| 91精品欧美久久久久久动漫| 久久九九热re6这里有精品 | 国产欧美一区二区在线观看| 欧美人xxx| 国产99久久精品一区二区 夜夜躁日日躁 | 欧美二区视频| 9久久婷婷国产综合精品性色 | 欧美精品videossex性护士| 老鸭窝毛片一区二区三区| 国产区视频在线观看| 国产一区二区美女视频| 伊人久久久大香线蕉综合直播| 妞干网2018| 美女国内精品自产拍在线播放| 老鸭窝毛片一区二区三区| 午夜cr在线观看高清在线视频完整版| 久久成人18免费网站| 奇米四色…亚洲| 天天综合视频在线观看| 国产精品影院在线观看| 中文字幕日韩欧美一区二区三区| 国产亚洲欧美日韩精品一区二区三区 | 国产精品99久久久久久久久 | 林ゆな中文字幕一区二区| a级黄色片免费| 日韩欧美一级片| 亚洲国产91| 男生女生差差差的视频在线观看| 国产97免费视| 亚洲欧洲一区二区三区| 久久伊人精品| 免费成人在线视频网站| 国产一区二区黑人欧美xxxx| 美女黄网久久| 欧美欧美欧美| 91免费精品国偷自产在线| 天天爽夜夜爽夜夜爽精品视频| 国产精品羞羞答答在线观看| 妞干网在线视频观看| 日韩精品免费视频| 美女免费视频一区| 麻豆视频网站在线观看| 精品日本一区二区| 制服丝袜激情欧洲亚洲| 国产精品一区毛片| 超碰在线资源| 一区二区三区的久久的视频| 欧美一区二区视频在线观看2020 | 第一页在线观看| 91精品久久久久久久久久久久久久 | 黄色免费网址大全| 在线播放欧美女士性生活| 一区二区三区91| 蜜臀久久久99精品久久久久久| 亚洲国模精品一区| 日韩久久在线| 欧美性生活大片视频| 国产精品99久久精品| 日韩精品你懂的| 91av视频在线免费观看| 中文字幕一区二区三区蜜月| 日韩超碰人人爽人人做人人添| 国产资源在线一区| 亚洲一区视频| 亚洲国产你懂的| 色欧美自拍视频| 黄a大片av永久免费| 国产精品∨欧美精品v日韩精品| 国产精品久久久久aaaa樱花| 精品日韩免费| 久草在线网址| 日韩不卡av| 一本色道久久88综合亚洲精品ⅰ | 亚洲国产日韩精品在线| 免费观看一级特黄欧美大片| 成人美女黄网站| 每日在线观看av| 欧美高清在线观看| 亚洲久草在线视频| 欧美日韩国产高清| 精品麻豆一区二区三区| 中国黄色录像片| 欧美成人亚洲成人| 午夜精品久久久久久久久| 午夜精品网站| 小h片在线观看| 99re热在线观看| 国产精品一区二区欧美| 欧美tickling网站挠脚心| 成人毛片在线观看| 国产亚洲电影| 91ph在线| av免费观看大全| 青青草原一区二区| 欧美成人官网二区| 91亚洲永久精品| 欧美激情偷拍| 黄色精品视频| 亚洲日本高清| 久久精品在线免费视频| 国产精品成人一区二区| 日韩亚洲欧美高清| 国产精品欧美一级免费| 亚洲精品社区| 亚洲日本视频在线| av中文资源在线| 黄色片久久久久| 国产高清一区视频| 色综合久久88色综合天天看泰| 欧美性猛交xxxx乱大交| 成人av在线看| 羞羞色午夜精品一区二区三区| 久久久久成人精品免费播放动漫| 嫩草成人www欧美| 大陆精大陆国产国语精品 | 最新国产成人在线观看| 亚洲男女自偷自拍| 美日韩黄色大片| h片视频在线观看| 在线国产小视频|