告別“煉丹玄學”：上海AI實驗室推出首個大模型數(shù)據(jù)競技場OpenDataArena

2025-08-25 09:07:00

上海人工智能實驗室OpenDataLab團隊在數(shù)據(jù)領(lǐng)域持續(xù)深耕，正式推出了開放數(shù)據(jù)競技場OpenDataArena。

數(shù)據(jù)在AI時代的重要性已經(jīng)不言而喻，但懸而未決的是——

如何精確量化這些數(shù)據(jù)的價值、辨別其優(yōu)劣？

為此，上海人工智能實驗室OpenDataLab團隊在數(shù)據(jù)領(lǐng)域持續(xù)深耕，正式推出了開放數(shù)據(jù)競技場OpenDataArena。

展開來說，在海量的SFT（監(jiān)督式微調(diào)）后訓練數(shù)據(jù)面前，研究者們常常陷入“黑盒式”的困境：不清楚哪些數(shù)據(jù)真正有用，也難以系統(tǒng)性地評估和比較不同的數(shù)據(jù)集。

而OpenDataArena，正是一個為數(shù)據(jù)價值而生的“競技場”，致力于將數(shù)據(jù)質(zhì)量的評估從“玄學”變?yōu)椤翱茖W”。

團隊希望通過一個公平、公開、透明的平臺，首次正式嘗試回答“如何驗證數(shù)據(jù)價值”這一核心問題。

它不僅提供了一個直觀的數(shù)據(jù)評測榜單，更構(gòu)建了一套完整可復現(xiàn)的數(shù)據(jù)價值驗證體系——

通過一套訓評一體化的開源工具，讓不同數(shù)據(jù)集在同等條件下公平“競技”，用模型效果作為衡量數(shù)據(jù)價值的最終標準。

同時，通過開發(fā)多維度評分工具，對數(shù)據(jù)進行精細化“體檢”，讓數(shù)據(jù)價值不再是模糊的“黑盒”。

下面詳細來看。

OpenDataArena：數(shù)據(jù)價值的首次全面驗證

OpenDataArena首次系統(tǒng)性地探究“如何評價數(shù)據(jù)質(zhì)量”這個難題。

為此，該項目構(gòu)建了“開放數(shù)據(jù)競技場”，并配套開發(fā)了一整套數(shù)據(jù)價值驗證工具。

該平臺的核心成果包括：

OpenDataArena平臺：一個公平、公開、透明的SFT后訓練數(shù)據(jù)價值評測平臺，涵蓋一個多領(lǐng)域、可視化的數(shù)據(jù)競技榜單。
多維度數(shù)據(jù)打分：平臺從幾十種維度對已有數(shù)據(jù)進行精細化打分，并已開源了部分評分數(shù)據(jù)，便于研究員們后續(xù)直接下載使用，避免重復API調(diào)用。
訓評一體化工具：團隊開源了整套數(shù)據(jù)訓練、評估以及數(shù)據(jù)打分工具，讓價值驗證過程可復現(xiàn)、可擴展。

OpenDataArena為以下幾類核心需求提供了實際的解決方案：

1、對數(shù)據(jù)質(zhì)量的評估與篩選：幫助模型訓練者和數(shù)據(jù)研究者快速識別并篩選出高質(zhì)量數(shù)據(jù)集，擺脫盲目試錯，高效賦能模型訓練與應用。

2、對數(shù)據(jù)生成的指導與優(yōu)化：為數(shù)據(jù)合成的研究者提供多維度的評分數(shù)據(jù)和工具，助力他們尋找高價值的“種子數(shù)據(jù)”，為生成更優(yōu)質(zhì)的合成數(shù)據(jù)提供指導。

3、對數(shù)據(jù)價值的深入洞察：賦能學術(shù)研究人員探索數(shù)據(jù)特征與模型效果的內(nèi)在關(guān)聯(lián)，為數(shù)據(jù)選擇、數(shù)據(jù)生成等前沿研究提供堅實的數(shù)據(jù)支持和客觀的評估依據(jù)。

平臺目前已覆蓋4+領(lǐng)域、20+基準測試、20+數(shù)據(jù)評分維度，處理了100+數(shù)據(jù)集，超過20M+數(shù)據(jù)樣本，并完成了600+次模型訓練、10K+次模型評估，這些指標都在不斷增長。

數(shù)據(jù)競技場：讓數(shù)據(jù)在實戰(zhàn)中一較高下

OpenDataArena的核心理念，就是讓數(shù)據(jù)價值在實戰(zhàn)中得到驗證。

該平臺通過一套公平、公開、可復現(xiàn)的大模型訓練與評測機制，來比較不同訓練數(shù)據(jù)集的優(yōu)劣。

那么，OpenDataArena具體是如何運作的呢？

1、數(shù)據(jù)集選擇

平臺覆蓋了來自通用、數(shù)學、代碼、科學等多個領(lǐng)域的后訓練數(shù)據(jù)集。這些數(shù)據(jù)來自于HuggingFace并且有一定的下載和關(guān)注度，不僅具有代表性，而且具備時效性，確保了評測的現(xiàn)實意義。

2、模型選擇

平臺采用了社區(qū)中最常用、最具代表性的Llama3.1和Qwen 2.5的7B版本作為基準模型，它們代表了真實的學術(shù)和工業(yè)應用場景，同時盡可能反映了最多場景中實際使用的模型大小的數(shù)據(jù)性能。

3、訓練與評估

平臺采用標準化訓練配置，訓練環(huán)節(jié)采用廣受認可的LLaMA-Factory框架，并且嚴格采用最常見的訓練參數(shù)。

測試環(huán)節(jié)使用OpenCompass進行全面評估，在測試環(huán)節(jié)的參數(shù)設置上，團隊進行了大量預實驗，確保推理模板和評估器等細節(jié)都經(jīng)過了精心的優(yōu)化，排除外部干擾，讓測試結(jié)果能更公平、公正地反映訓練數(shù)據(jù)集的真實質(zhì)量。

4、評測集全面覆蓋

平臺選擇了通用、數(shù)學、代碼、長鏈推理等多維度基準測試集，力求全面、客觀地反映單領(lǐng)域數(shù)據(jù)質(zhì)量，以及混合領(lǐng)域的數(shù)據(jù)綜合質(zhì)量。

最終，OpenDataArena數(shù)據(jù)競技場誕生，通過數(shù)據(jù)評測榜單直觀的給出數(shù)據(jù)“優(yōu)秀”程度。

平臺希望能夠幫助模型訓練者和數(shù)據(jù)研究者快速識別并挑選高質(zhì)量數(shù)據(jù)集，降低試錯成本，賦能模型訓練與應用。

數(shù)據(jù)多維度評價：打開數(shù)據(jù)質(zhì)量的“黑匣子”

除了通過訓練模型得到下游任務的表現(xiàn)來直接反應數(shù)據(jù)的質(zhì)量之外，OpenDataArena還通過多維度的客觀評分工具，來對數(shù)據(jù)本身進行細致的“體檢”，這些客觀評分指標得到了學界和業(yè)界的廣泛認可。

1、20+維度，精準畫像

平臺對代表性的數(shù)據(jù)集整體，以及數(shù)據(jù)集中的每一條數(shù)據(jù)，都進行了細致的多維度打分。

不論是直接選用整個數(shù)據(jù)集，還是用于挑選優(yōu)質(zhì)子數(shù)據(jù)，都方便操作。同時，無論是指令數(shù)據(jù)，還是指令-響應對數(shù)據(jù)，平臺都從不同方面提供了相應的評分。

2、多源評分，深度剖析

平臺的評分工具整合了多種維度評估方法，包括基于模型的評估（Model-based Evaluation，如IFD）、大模型作為評委（LLM-as-a-Judge，如準確性、復雜度）和啟發(fā)式方法（Heuristic，如回復響應長度）。

這些維度涵蓋了數(shù)據(jù)的常見評價指標，為數(shù)據(jù)的價值提供了豐富的量化視角。

3、開源評分數(shù)據(jù)

團隊已完成對超過15M+數(shù)據(jù)的多維度評分，并已開源這些數(shù)據(jù)評分結(jié)果。

對于需要依賴常見評價指標開展數(shù)據(jù)篩選、種子數(shù)據(jù)生成等任務的科研用戶而言，這不僅極大降低了打分成本，還有效避免了重復的API調(diào)用，從而節(jié)省了實際開銷，可謂一項極其寶貴的資源。

通過上述努力，平臺為數(shù)據(jù)合成、數(shù)據(jù)篩選的研究者提供了多維度的評分數(shù)據(jù)和工具，助力他們尋找高價值的“種子數(shù)據(jù)”，最終為生成更優(yōu)質(zhì)、更高價值的數(shù)據(jù)提供了直接的幫助。

開源工具：讓數(shù)據(jù)價值驗證觸手可及

為了“公平、公正、公開”的OpenDataArena平臺的設計原則，同時也為了讓更多人能參與到數(shù)據(jù)價值驗證中來，真實地評價數(shù)據(jù)的質(zhì)量，OpenDataArena團隊將整個平臺的核心工具都進行了開源。

包括基于模型的訓練評測工具，以及客觀的多維度數(shù)據(jù)評價打分工具，所有的細節(jié)能在完整的OpenDataArena-Tool中找到說明。

訓評一體化工具

平臺基于主流的LLaMA-Factory訓練框架，以及評測端知名的OpenCompass框架，打造了一套端到端的訓練與評測工具，給出了所有的配置和流程復現(xiàn)腳本，確保了評估實驗的結(jié)果可復現(xiàn)性與公平性。

相關(guān)的設置都盡可能與當前的主流研究工作、以及其余開源工具進行了對齊，保證了結(jié)果的公平公正可比。

具體的說明可以在配置詳情和工具說明中，找到所有細節(jié)。

多維度數(shù)據(jù)打分工具

平臺對于數(shù)據(jù)評價的打分工具也在持續(xù)完善中。

目前已實現(xiàn)的大部分評估維度打分工具均已開源，并提供了詳細的使用教程。不管是單個維度的數(shù)據(jù)評估，還是所有已支持的數(shù)據(jù)評估維度，用戶都可以在官方wiki文檔中了解到如何使用這些工具，并為自己的數(shù)據(jù)進行“體檢”。

同時，團隊還在持續(xù)優(yōu)化支持更多的數(shù)據(jù)打分維度，為用戶提供更多維度的數(shù)據(jù)打分選擇。

通過上述的工具開源，OpenDataArena團隊希望提供一個開放共享的數(shù)據(jù)價值評估平臺，讓所有用戶都能參與到數(shù)據(jù)評估中來，并為產(chǎn)生真正的高價值數(shù)據(jù)共同努力。

未來展望：數(shù)據(jù)價值的星辰大海

據(jù)團隊介紹，目前OpenDataArena已經(jīng)完成的僅僅只是冰山一角，也只是對數(shù)據(jù)價值驗證的開始。

項目未來也有更多的計劃，例如下面這些：

擴展驗證范圍：逐步支持多模態(tài)等更復雜的數(shù)據(jù)類型；
深化應用場景：擴展至醫(yī)療、金融、科學等更多專業(yè)領(lǐng)域；
保持新鮮度：每月更新數(shù)據(jù)競技場，確保數(shù)據(jù)排行榜的及時性。

團隊認為，數(shù)據(jù)價值的驗證需要社區(qū)的共同努力，上述計劃也非常需要科研社區(qū)的力量來共同參與。

感興趣可以進一步關(guān)注。

地址：https://opendataarena.github.io/index.html

工具：https://github.com/OpenDataArena/OpenDataArena-Tool

數(shù)據(jù)：https://huggingface.co/OpenDataArena

責任編輯：張燕妮來源：量子位

AI 大模型數(shù)據(jù)

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看