大模型走捷徑「刷榜」？數(shù)據(jù)污染問題值得重視

作者：機(jī)器之心 2023-11-09 15:12:00

近日，我們關(guān)注到朋友圈和知乎社區(qū)對大模型「刷榜」這一問題的討論越來越多。特別是，知乎一篇帖子：如何評價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象？引起了大家的討論。

生成式 AI 元年，大家的工作節(jié)奏快了一大截。

特別是，今年大家都在努力卷大模型：最近國內(nèi)外科技巨頭、創(chuàng)業(yè)公司都在輪番推出大模型，發(fā)布會一開，個(gè)個(gè)都是重大突破，每一家都是刷新了重要 Benchmark 榜單，要么排第一，要么第一梯隊(duì)。

在興奮于技術(shù)進(jìn)展速度之快后，很多人發(fā)現(xiàn)似乎也有些不對味：為什么排行榜第一人人有份？這是個(gè)什么機(jī)制？

于是乎，「刷榜」這個(gè)問題也開始備受關(guān)注。

鏈接：https://www.zhihu.com/question/628957425

多家大模型刷榜機(jī)制曝光

該研究來自昆侖萬維的「天工」大模型研究團(tuán)隊(duì)，他們上個(gè)月底把一份技術(shù)報(bào)告發(fā)布在了預(yù)印版論文平臺 arXiv 上。

論文鏈接：https://arxiv.org/abs/2310.19341

論文本身是在介紹 Skywork-13B，這是天工的一個(gè)大型語言模型（LLM）系列。作者引入了使用分段語料庫的兩階段訓(xùn)練方法，分別針對通用訓(xùn)練和特定領(lǐng)域的增強(qiáng)訓(xùn)練。

和往常有關(guān)大模型的新研究一樣，作者表示在流行的測試基準(zhǔn)上，他們的模型不僅表現(xiàn)出色，而且在很多中文的分支任務(wù)上取得了 state-of-art 水平（就是業(yè)內(nèi)最佳）。

重點(diǎn)是，該報(bào)告還驗(yàn)證了下很多大模型的真實(shí)效果，指出了一些其他一些國產(chǎn)大模型存在投機(jī)取巧的嫌疑。說的就是這個(gè)表格 8：

在這里，作者為了驗(yàn)證目前業(yè)內(nèi)幾個(gè)常見大模型在數(shù)學(xué)應(yīng)用問題基準(zhǔn) GSM8K 上的過擬合程度，使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本，人工核對了正確性，并讓這些模型在生成的數(shù)據(jù)集，和 GSM8K 原本的訓(xùn)練集、測試集上比了比，計(jì)算了損失。然后還有兩個(gè)指標(biāo)：

Δ1 作為模型訓(xùn)練期間潛在測試數(shù)據(jù)泄漏的指標(biāo)，較低的值表明可能存在泄漏。沒有用測試集訓(xùn)練，那數(shù)值應(yīng)該為零。

Δ2 衡量數(shù)據(jù)集訓(xùn)練分割的過度擬合程度。較高的 Δ2 值意味著過擬合。如果沒有用訓(xùn)練集訓(xùn)練過，那數(shù)值應(yīng)該為零。

用簡單的話來解釋就是：如果有模型在訓(xùn)練的時(shí)候，直接拿基準(zhǔn)測試?yán)锩娴摹刚骖}」和「答案」來當(dāng)學(xué)習(xí)資料，想以此來刷分，那么此處就會有異常。

好的，Δ1 和 Δ2 有問題的地方，上面都貼心地以灰色突出顯示了。

網(wǎng)友對此評論道，終于有人把「數(shù)據(jù)集污染」這個(gè)公開的秘密說出來了。

也有網(wǎng)友表示，大模型的智力水平，還是要看 zero-shot 能力，現(xiàn)有的測試基準(zhǔn)都做不到。

圖：截圖自知乎網(wǎng)友評論

在作者與讀者中互動(dòng)中，作者也表示，希望「讓大家更理性看待刷榜這個(gè)事情，很多模型和 GPT4 的差距還很大」。

圖：截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891

數(shù)據(jù)污染問題值得重視

其實(shí)，這并不是一時(shí)的現(xiàn)象。自從有了 Benchmark，此類問題時(shí)常會有發(fā)生，就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標(biāo)題指出的一樣 Pretraining on the Test Set Is All You Need。

除此之外，最近人民大學(xué)、伊利諾伊大學(xué)香檳分校一個(gè)正式研究同樣指出了大模型評估中存在的問題。標(biāo)題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》：

論文鏈接：https://arxiv.org/abs/2311.01964

論文指出，當(dāng)前火熱的大模型領(lǐng)域讓人們關(guān)心基準(zhǔn)測試的排名，但其公平性和可靠性正在受到質(zhì)疑。其中主要的問題就是數(shù)據(jù)污染和泄露，這樣的問題可能會被無意識地觸發(fā)，因?yàn)槲覀冊跍?zhǔn)備預(yù)訓(xùn)練語料庫時(shí)可能不知道未來的評估數(shù)據(jù)集。例如，GPT-3 發(fā)現(xiàn)預(yù)訓(xùn)練語料庫中包含了 Children's Book Test 數(shù)據(jù)集，LLaMA-2 的論文曾提到提取了 BoolQ 數(shù)據(jù)集中的上下文網(wǎng)頁內(nèi)容。

數(shù)據(jù)集是需要很多人花費(fèi)大量精力收集、整理和標(biāo)注的，優(yōu)質(zhì)的數(shù)據(jù)集如果優(yōu)秀到能被用于評測，那自然也有可能會被另一些人用于訓(xùn)練大模型。

另一方面，在使用現(xiàn)有基準(zhǔn)進(jìn)行評估時(shí)，我們評測的大模型的結(jié)果大多是通過在本地服務(wù)器上運(yùn)行或通過 API 調(diào)用來獲得的。在此過程中，沒有嚴(yán)格檢查任何可能導(dǎo)致評估績效異常提高的不當(dāng)方式（例如數(shù)據(jù)污染）。

更糟糕的是，訓(xùn)練語料庫的詳細(xì)組成（例如數(shù)據(jù)源）通常被視為現(xiàn)有大模型的核心「秘密」。這就更難去探究數(shù)據(jù)污染的問題了。

也就是說，優(yōu)秀數(shù)據(jù)的數(shù)量是有限的，在很多測試集上，GPT-4 和 Llama-2 也不一定就沒問題。比如在第一篇論文中提到的 GSM8K，GPT-4 在官方 technical report 里提到過使用了它的訓(xùn)練集。

你不是說數(shù)據(jù)很重要嗎，那么用「真題」刷分的大模型，性能會不會因?yàn)橛?xùn)練數(shù)據(jù)更優(yōu)秀而變得更好呢？答案是否定的。

研究人員實(shí)驗(yàn)發(fā)現(xiàn)，基準(zhǔn)泄漏會導(dǎo)致大模型跑出夸張的成績：例如 1.3B 的模型可以在某些任務(wù)上超越 10 倍體量的模型。但副作用是，如果我們僅使用這些泄露的數(shù)據(jù)來微調(diào)或訓(xùn)練模型，這些專門應(yīng)試的大模型在其他正常測試任務(wù)上的表現(xiàn)可能會受到不利影響。

因此作者建議，以后研究人員在評測大模型，或是研究新技術(shù)時(shí)應(yīng)該：

使用更多來自不同來源的基準(zhǔn)，涵蓋基本能力（例如文本生成）和高級能力（例如復(fù)雜推理），以全面評估 LLM 的能力。
在使用評估基準(zhǔn)時(shí)，在預(yù)訓(xùn)練數(shù)據(jù)和任何相關(guān)數(shù)據(jù)（例如訓(xùn)練和測試集）之間執(zhí)行數(shù)據(jù)凈化檢查非常重要。此外，還需要報(bào)告評估基準(zhǔn)的污染分析結(jié)果作為參考。如有可能，建議公開預(yù)訓(xùn)練數(shù)據(jù)的詳細(xì)組成。
建議應(yīng)采用多樣化的測試提示來減少提示敏感性的影響。在基準(zhǔn)數(shù)據(jù)和現(xiàn)有預(yù)訓(xùn)練語料庫之間進(jìn)行污染分析，提醒任何潛在的污染風(fēng)險(xiǎn)也很有意義。為了進(jìn)行評估，建議每次提交都附有一份特殊的污染分析報(bào)告。

最后想說，好在這個(gè)問題開始逐漸引起大家的關(guān)注，無論是技術(shù)報(bào)告、論文研究還是社區(qū)討論，都開始重視大模型「刷榜」的問題了。

對此，你有什么看法與有效建議呢？

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型走捷徑「刷榜」？數(shù)據(jù)污染問題值得重視

多家大模型刷榜機(jī)制曝光

數(shù)據(jù)污染問題值得重視