国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

告別“煉丹玄學”:上海AI實驗室推出首個大模型數(shù)據(jù)競技場OpenDataArena

人工智能 新聞
上海人工智能實驗室OpenDataLab團隊在數(shù)據(jù)領(lǐng)域持續(xù)深耕,正式推出了開放數(shù)據(jù)競技場OpenDataArena。

數(shù)據(jù)在AI時代的重要性已經(jīng)不言而喻,但懸而未決的是——

如何精確量化這些數(shù)據(jù)的價值、辨別其優(yōu)劣?

為此,上海人工智能實驗室OpenDataLab團隊在數(shù)據(jù)領(lǐng)域持續(xù)深耕,正式推出了開放數(shù)據(jù)競技場OpenDataArena

展開來說,在海量的SFT(監(jiān)督式微調(diào))后訓練數(shù)據(jù)面前,研究者們常常陷入“黑盒式”的困境:不清楚哪些數(shù)據(jù)真正有用,也難以系統(tǒng)性地評估和比較不同的數(shù)據(jù)集。

而OpenDataArena,正是一個為數(shù)據(jù)價值而生的“競技場”,致力于將數(shù)據(jù)質(zhì)量的評估從“玄學”變?yōu)椤翱茖W”。

團隊希望通過一個公平、公開、透明的平臺,首次正式嘗試回答“如何驗證數(shù)據(jù)價值”這一核心問題。

它不僅提供了一個直觀的數(shù)據(jù)評測榜單,更構(gòu)建了一套完整可復現(xiàn)的數(shù)據(jù)價值驗證體系——

通過一套訓評一體化的開源工具,讓不同數(shù)據(jù)集在同等條件下公平“競技”,用模型效果作為衡量數(shù)據(jù)價值的最終標準。

同時,通過開發(fā)多維度評分工具,對數(shù)據(jù)進行精細化“體檢”,讓數(shù)據(jù)價值不再是模糊的“黑盒”。

下面詳細來看。

OpenDataArena:數(shù)據(jù)價值的首次全面驗證

OpenDataArena首次系統(tǒng)性地探究“如何評價數(shù)據(jù)質(zhì)量”這個難題。

為此,該項目構(gòu)建了“開放數(shù)據(jù)競技場”,并配套開發(fā)了一整套數(shù)據(jù)價值驗證工具。

該平臺的核心成果包括:

  • OpenDataArena平臺:一個公平、公開、透明的SFT后訓練數(shù)據(jù)價值評測平臺,涵蓋一個多領(lǐng)域、可視化的數(shù)據(jù)競技榜單。
  • 多維度數(shù)據(jù)打分:平臺從幾十種維度對已有數(shù)據(jù)進行精細化打分,并已開源了部分評分數(shù)據(jù),便于研究員們后續(xù)直接下載使用,避免重復API調(diào)用。
  • 訓評一體化工具:團隊開源了整套數(shù)據(jù)訓練、評估以及數(shù)據(jù)打分工具,讓價值驗證過程可復現(xiàn)、可擴展。

OpenDataArena為以下幾類核心需求提供了實際的解決方案:

1、對數(shù)據(jù)質(zhì)量的評估與篩選:幫助模型訓練者數(shù)據(jù)研究者快速識別并篩選出高質(zhì)量數(shù)據(jù)集,擺脫盲目試錯,高效賦能模型訓練與應用。

2、對數(shù)據(jù)生成的指導與優(yōu)化:數(shù)據(jù)合成的研究者提供多維度的評分數(shù)據(jù)和工具,助力他們尋找高價值的“種子數(shù)據(jù)”,為生成更優(yōu)質(zhì)的合成數(shù)據(jù)提供指導。

3、對數(shù)據(jù)價值的深入洞察:賦能學術(shù)研究人員探索數(shù)據(jù)特征與模型效果的內(nèi)在關(guān)聯(lián),為數(shù)據(jù)選擇、數(shù)據(jù)生成等前沿研究提供堅實的數(shù)據(jù)支持和客觀的評估依據(jù)。

平臺目前已覆蓋4+領(lǐng)域、20+基準測試、20+數(shù)據(jù)評分維度,處理了100+數(shù)據(jù)集,超過20M+數(shù)據(jù)樣本,并完成了600+次模型訓練、10K+次模型評估,這些指標都在不斷增長。

數(shù)據(jù)競技場:讓數(shù)據(jù)在實戰(zhàn)中一較高下

OpenDataArena的核心理念,就是讓數(shù)據(jù)價值在實戰(zhàn)中得到驗證。

該平臺通過一套公平、公開、可復現(xiàn)的大模型訓練與評測機制,來比較不同訓練數(shù)據(jù)集的優(yōu)劣。

那么,OpenDataArena具體是如何運作的呢?

1、數(shù)據(jù)集選擇

平臺覆蓋了來自通用、數(shù)學、代碼、科學等多個領(lǐng)域的后訓練數(shù)據(jù)集。這些數(shù)據(jù)來自于HuggingFace并且有一定的下載和關(guān)注度,不僅具有代表性,而且具備時效性,確保了評測的現(xiàn)實意義。

2、模型選擇

平臺采用了社區(qū)中最常用、最具代表性的Llama3.1Qwen 2.57B版本作為基準模型,它們代表了真實的學術(shù)和工業(yè)應用場景,同時盡可能反映了最多場景中實際使用的模型大小的數(shù)據(jù)性能。

3、訓練與評估

平臺采用標準化訓練配置,訓練環(huán)節(jié)采用廣受認可的LLaMA-Factory框架,并且嚴格采用最常見的訓練參數(shù)。

測試環(huán)節(jié)使用OpenCompass進行全面評估,在測試環(huán)節(jié)的參數(shù)設置上,團隊進行了大量預實驗,確保推理模板和評估器等細節(jié)都經(jīng)過了精心的優(yōu)化,排除外部干擾,讓測試結(jié)果能更公平、公正地反映訓練數(shù)據(jù)集的真實質(zhì)量。

4、評測集全面覆蓋

平臺選擇了通用、數(shù)學、代碼、長鏈推理等多維度基準測試集,力求全面、客觀地反映單領(lǐng)域數(shù)據(jù)質(zhì)量,以及混合領(lǐng)域的數(shù)據(jù)綜合質(zhì)量。

最終,OpenDataArena數(shù)據(jù)競技場誕生,通過數(shù)據(jù)評測榜單直觀的給出數(shù)據(jù)“優(yōu)秀”程度。

平臺希望能夠幫助模型訓練者和數(shù)據(jù)研究者快速識別并挑選高質(zhì)量數(shù)據(jù)集,降低試錯成本,賦能模型訓練與應用。

數(shù)據(jù)多維度評價:打開數(shù)據(jù)質(zhì)量的“黑匣子”

除了通過訓練模型得到下游任務的表現(xiàn)來直接反應數(shù)據(jù)的質(zhì)量之外,OpenDataArena還通過多維度的客觀評分工具,來對數(shù)據(jù)本身進行細致的“體檢”,這些客觀評分指標得到了學界和業(yè)界的廣泛認可。

1、20+維度,精準畫像

平臺對代表性的數(shù)據(jù)集整體,以及數(shù)據(jù)集中的每一條數(shù)據(jù),都進行了細致的多維度打分。

不論是直接選用整個數(shù)據(jù)集,還是用于挑選優(yōu)質(zhì)子數(shù)據(jù),都方便操作。同時,無論是指令數(shù)據(jù),還是指令-響應對數(shù)據(jù),平臺都從不同方面提供了相應的評分。

2、多源評分,深度剖析

平臺的評分工具整合了多種維度評估方法,包括基于模型的評估(Model-based Evaluation,如IFD)、大模型作為評委(LLM-as-a-Judge,如準確性、復雜度)和啟發(fā)式方法(Heuristic,如回復響應長度)。

這些維度涵蓋了數(shù)據(jù)的常見評價指標,為數(shù)據(jù)的價值提供了豐富的量化視角。

3、開源評分數(shù)據(jù)

團隊已完成對超過15M+數(shù)據(jù)的多維度評分,并已開源這些數(shù)據(jù)評分結(jié)果。

對于需要依賴常見評價指標開展數(shù)據(jù)篩選、種子數(shù)據(jù)生成等任務的科研用戶而言,這不僅極大降低了打分成本,還有效避免了重復的API調(diào)用,從而節(jié)省了實際開銷,可謂一項極其寶貴的資源。

通過上述努力,平臺為數(shù)據(jù)合成、數(shù)據(jù)篩選的研究者提供了多維度的評分數(shù)據(jù)和工具,助力他們尋找高價值的“種子數(shù)據(jù)”,最終為生成更優(yōu)質(zhì)、更高價值的數(shù)據(jù)提供了直接的幫助。

開源工具:讓數(shù)據(jù)價值驗證觸手可及

為了“公平、公正、公開”的OpenDataArena平臺的設計原則,同時也為了讓更多人能參與到數(shù)據(jù)價值驗證中來,真實地評價數(shù)據(jù)的質(zhì)量,OpenDataArena團隊將整個平臺的核心工具都進行了開源。

包括基于模型的訓練評測工具,以及客觀的多維度數(shù)據(jù)評價打分工具,所有的細節(jié)能在完整的OpenDataArena-Tool中找到說明。

  • 訓評一體化工具

平臺基于主流的LLaMA-Factory訓練框架,以及評測端知名的OpenCompass框架,打造了一套端到端的訓練與評測工具,給出了所有的配置和流程復現(xiàn)腳本,確保了評估實驗的結(jié)果可復現(xiàn)性與公平性。

相關(guān)的設置都盡可能與當前的主流研究工作、以及其余開源工具進行了對齊,保證了結(jié)果的公平公正可比。

具體的說明可以在配置詳情和工具說明中,找到所有細節(jié)。

  • 多維度數(shù)據(jù)打分工具

平臺對于數(shù)據(jù)評價的打分工具也在持續(xù)完善中。

目前已實現(xiàn)的大部分評估維度打分工具均已開源,并提供了詳細的使用教程。不管是單個維度的數(shù)據(jù)評估,還是所有已支持的數(shù)據(jù)評估維度,用戶都可以在官方wiki文檔中了解到如何使用這些工具,并為自己的數(shù)據(jù)進行“體檢”。

同時,團隊還在持續(xù)優(yōu)化支持更多的數(shù)據(jù)打分維度,為用戶提供更多維度的數(shù)據(jù)打分選擇。

通過上述的工具開源,OpenDataArena團隊希望提供一個開放共享的數(shù)據(jù)價值評估平臺,讓所有用戶都能參與到數(shù)據(jù)評估中來,并為產(chǎn)生真正的高價值數(shù)據(jù)共同努力。

未來展望:數(shù)據(jù)價值的星辰大海

據(jù)團隊介紹,目前OpenDataArena已經(jīng)完成的僅僅只是冰山一角,也只是對數(shù)據(jù)價值驗證的開始。

項目未來也有更多的計劃,例如下面這些:

  • 擴展驗證范圍: 逐步支持多模態(tài)等更復雜的數(shù)據(jù)類型;
  • 深化應用場景: 擴展至醫(yī)療、金融、科學等更多專業(yè)領(lǐng)域;
  • 保持新鮮度: 每月更新數(shù)據(jù)競技場,確保數(shù)據(jù)排行榜的及時性。

團隊認為,數(shù)據(jù)價值的驗證需要社區(qū)的共同努力,上述計劃也非常需要科研社區(qū)的力量來共同參與。

感興趣可以進一步關(guān)注。

地址:https://opendataarena.github.io/index.html

工具:https://github.com/OpenDataArena/OpenDataArena-Tool

數(shù)據(jù):https://huggingface.co/OpenDataArena

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-05-31 14:23:15

2025-06-06 08:52:00

機器人智能推理

2012-05-31 14:20:14

2025-07-22 10:45:55

2023-12-01 09:36:59

華為云大模型混合云華為云行業(yè)高峰論壇

2014-04-08 20:40:01

華為OpenDayligh

2018-07-05 17:50:14

AI

2009-06-25 19:03:37

云計算IBMWeb

2025-06-09 08:56:00

2025-06-11 09:19:46

2011-07-15 10:10:16

思科虛擬實驗室

2024-09-29 14:33:30

數(shù)據(jù)飛輪數(shù)據(jù)中臺數(shù)字化轉(zhuǎn)型

2023-10-10 15:06:00

智能數(shù)據(jù)

2024-05-27 11:43:47

2021-08-04 09:48:05

數(shù)字化

2013-09-12 11:17:02

2025-03-10 07:00:00

模型數(shù)據(jù)訓練

2012-09-28 16:25:50

COSUGOpenStackCOSCL
點贊
收藏

51CTO技術(shù)棧公眾號

成人免费网站www网站高清| 欧美日韩另类字幕中文| 国产精品99久久久久| 免费成人在线网站| 综合久草视频| 国内精品久久久久久久97牛牛| 欧美成人一区二区三区在线观看| 99国产精品国产精品久久| 亚洲一区二区三区三| 一区二区三区四区不卡| 欧美亚洲精品在线| 久久精品电影一区二区| eeuss影院在线播放| 日本一区二区视频在线| 欧美日韩视频免费在线观看| 午夜精品av| 国产成人av在线播放| 国产精品美女久久久久| 亚洲视频自拍偷拍| eeuss鲁一区二区三区| 欧美午夜精品伦理| 麻豆传媒在线播放| 亚洲欧美激情一区二区| 亚洲天堂av线| 国产性做久久久久久| 老子影院午夜伦不卡大全| 免费观看在线色综合| 久久久久资源| 中文在线播放一区二区 | 狠狠色丁香久久婷婷综合丁香| 国产精品丝袜白浆摸在线| 动漫av一区| 久久伊人精品一区二区三区| 超碰超碰人人人人精品| 精品国内二区三区| 最新国产露脸在线观看| 色婷婷久久99综合精品jk白丝 | 一区二区中文| 日韩视频一区二区在线观看| 国产精品久久久久av免费| 黄色在线播放网站| 久久精品人人做人人爽| 91精品黄色| a视频在线看| 成人深夜福利app| 精品国产一区a| 91在线中文字幕| yourporn在线观看视频| 亚洲午夜精品一区二区国产| 粉嫩13p一区二区三区| 久久亚洲私人国产精品va| 好男人看片在线观看免费观看国语| 在线国产一区| 精品伦精品一区二区三区视频| 国产最新精品| 日韩免费观看视频| 希岛爱理av免费一区二区| 亚洲日本成人女熟在线观看| 福利视频一二区| 国语精品一区| 国内外激情在线| 日韩在线一区二区| 欧美日本一区二区三区| 中文字幕视频在线免费观看| 激情自拍一区| 久久久久久久久久久成人| 蜜臀久久99精品久久久无需会员 | 亚洲九九爱视频| 日韩精品视频无播放器在线看| 欧美日本韩国一区| 国产特黄在线| 欧美国产日韩一区| 久久综合激情| 麻豆影视在线| 日韩性生活视频| 国产精品996| 五月婷婷之综合激情| 国产精品久久久久9999吃药| 午夜亚洲福利| 成人日韩欧美| 中文字幕第100页| 98精品国产自产在线观看| av剧情在线观看| 国产资源第一页| 欧美制服第一页| 东京久久高清| av在线网址观看| 免费观看成人在线| 亚洲欧美一区二区三区四区 | www.国产一区| 在线看片日韩| 最新91在线| 精品欧美国产| 欧美一区二区三区影视| 韩日一区二区三区| 九七伦理97伦理| 国内精品久久久久久久果冻传媒| 在线视频欧美日韩| 欧美亚洲动漫精品| 亚洲国内精品| 992tv国产精品成人影院| 在线看你懂得| 在线观看国产一区| 最近2019年手机中文字幕 | 日韩免费视频| 色一情一乱一伦一区二区三区日本| 亚洲欧美国内爽妇网| 亚洲欧美日本韩国| 国内精品伊人久久久久影院对白| 中文在线最新版地址| 日本精品一区| 欧美黑人xxxx| 国产日韩欧美a| 国产精品迅雷| 成人eeuss影院在线观看| 国产精品第一第二| 91超碰这里只有精品国产| 免费视频最近日韩| 日韩一区二区三区免费| 黄色一级片视频| 日本福利视频导航| 99re热精品| 成人福利网站在线观看| 91久久久久久久久| 日本视频精品一区| 亚洲免费看av| 日韩视频精品| 欧美激情xxxx| 亚洲精品老司机| 国产午夜久久av| 又黄又www的网站| 国外成人在线直播| 亚洲一区二区三区小说| 欧美丝袜一区| 六十路在线观看| 久久精品国产精品国产精品污| 国产一二精品视频| jizz欧美大全| 日韩激情片免费| 国内外激情在线| 欧美另类精品xxxx孕妇| 亚洲一本二本| 青草全福视在线| 欧美日韩国产综合新一区| 中文字幕日韩一区二区不卡| 国产精久久一区二区| 美女毛片在线看| 免费看日b视频| 亚洲午夜未删减在线观看| 洋洋成人永久网站入口| 亚洲日本国产| 欧美日韩不卡视频| 欧美日韩国产免费观看视频| 日本激情视频在线| 深夜福利国产精品| 国产一区二区影院| 精品三级久久| 奇米色777欧美一区二区| 欧洲亚洲成人| 中文字幕日韩亚洲| 伊人av成人| 亚洲美女av在线播放| 久久99这里只有精品| 国产成人无吗| 五月天亚洲综合情| 日韩成人高清在线| 懂色av一区二区三区蜜臀| 日韩欧美一区二区三区在线观看| 91视频 - 88av| 欧美成人中文字幕| 中文字幕在线不卡一区二区三区| 性欧美lx╳lx╳| 亚洲精品一区视频| 精品久久sese| 日韩成人高清在线| 26uuu国产在线精品一区二区| 国产999精品在线观看| 羞羞免费视频网站| 国产日本欧美在线观看| 欧美日韩一区二区不卡| 久久精品国产999大香线蕉| 日韩天堂在线| 欧美狂欢多p性派对| 国产欧美va欧美va香蕉在| 在线视频欧美区| 精品一区二区三区免费| 日韩护士脚交太爽了| wwwcom羞羞网站| 91精品久久香蕉国产线看观看| 欧美一区二区免费观在线| 国产高清精品久久久久| 老司机aⅴ在线精品导航| 在线成人一区| 一本色道久久综合亚洲二区三区| 日韩中文字幕在线视频播放| 亚洲人成在线观看一区二区| 亚洲第一黄网| 日韩第二十一页| 国产主播福利在线| 东北少妇不带套对白|