国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

FineWeb技術報告出爐!揭秘HuggingFace規模最大、質量最高預訓練數據集

人工智能 新聞
從大規模網絡爬取、精細過濾到去重技術,通過FineWeb的技術報告探索如何打造高質量數據集,為大型語言模型(LLM)預訓練提供更優質的性能。

大型語言模型(LLMs)的性能在很大程度上取決于它的預訓練數據集的質量和大小。

然而,像Llama 3和Mixtral這樣最先進的LLMs的預訓練數據集并不公開;關于它們是如何創建的,我們知之甚少。

近日,Hugging Face上的一個團隊發布了FineWeb數據集,這是一個用于LLM預訓練的新型大規模(15萬億個tokens,44TB磁盤空間)數據集。

同時,他們還通過技術報告詳細介紹了該數據集的加工決策過程:FineWeb源自96個CommonCrawl快照,它是如何通過縝密的去重和過濾策略,比其他開放預訓練數據集產生了表現更好的LLM的。

創建數據集的準備工作

開始創建數據集的第一步,需要考慮的問題是如何獲取到大規模的數據。

Common Crawl這個非營利組織自2007年以來一直在爬取網絡數據,并且每1到2個月發布一次新的爬取,包含200到400 TiB的文本內容。

于是,Common Crawl就作為了FineWeb數據集的起點。

其次,由于涉及的數據量巨大,需要一個模塊化且可擴展的代碼庫來快速迭代處理決策并適當地并行化工作負載,同時提供對數據的清晰洞察。

為此,該團隊開發了datatrove,這是一個開源數據處理庫,能夠將過濾和去重設置無縫擴展到數千個CPU核心。

在創建數據集時,需要考慮的主要問題是什么是“高質量”的數據。

一種常用的方法是在數據集的一個代表性子集上訓練小型模型,并在一組評估任務上評估它們。

研究者在兩個版本的數據集上訓練了兩個結構相同的模型,一個經過額外處理步驟,另一個沒有,以此來比較數據處理步驟對模型性能的影響。

他們選用了Commonsense QA、HellaSwag、OpenBook QA等基準測試來評估模型,并限制較長基準測試的樣本量以避免過度擬合,確保模型評估結果的可靠性和泛化能力。

數據集是怎么去重和過濾的

下圖概括了FineWeb數據集生成的主要步驟:

URL過濾→文本提取→語言過濾→Gopher過濾→MinHash去重→C4過濾器→自定義過濾器→PII(個人身份信息)移除

圖片

本文主要介紹去重和過濾的部分,因為對于創建高質量數據集來說,這兩個步驟對于提高模型性能、增加數據多樣性和清潔度方面至關重要。

數據去重

網絡中存在許多聚合器、鏡像站點或模板化頁面,這些都可能導致內容在不同域名和網頁上重復出現。

去除這些重復內容(去重)已被證明可以提高模型性能,并減少對預訓練數據的記憶,這有助于模型更好地泛化。

研究者采用了MinHash這種基于模糊哈希的去重技術,因為它可以有效地擴展到許多CPU節點,并可以調整相似性閾值(通過控制bucket的數量和大小)以及考慮的子序列長度(通過控制n-gram大小)。

研究者拆分每個文檔為5-gram,使用112個哈希函數計算minhashes。

112個哈希函數被分成14個bucket,每個bucket有8個哈希,目的是定位至少75%相似的文檔。

在任何bucket中具有相同8個minhashes的文檔被認為是彼此的重復。

需要注意的是,研究者發現一個奇怪的現象:雖然去重后數據量少了很多(比如最舊的數據包,去重后只剩下了原來10%的內容),但用這些去重后的數據去訓練模型的時候,模型的表現并沒有變好,甚至比之前用沒有去重的數據訓練的模型還要差。

圖片

在所有數據包上進行去重并沒有提高性能

這說明,有時候去重去得太狠了,可能把一些有用的內容也給去除了,留下的那些內容反而質量不高。

這也提醒我們,需要找到一個平衡點,既要去除重復、低質量的數據,也要保留足夠的、有價值的信息。

為了改進去重方法,研究者嘗試了一種新策略:對每個單獨的數據包使用MinHash技術進行獨立的去重,而不是將所有數據包合并在一起去重。

通過這種方式,平衡了每個重復次數較多的集群和重復次數較少的集群之間的分布差異,讓去重更加的「溫和」。

數據過濾

首先介紹一下C4數據集,這是一個大型語言模型(LLM)訓練的常用數據子集,它在Hellaswag基準測試中表現十分出色。

FineWeb的研究者首先參照C4的過濾策略,先是匹配它的性能,然后是超越。

通過應用所有過濾規則(去除不以標點符號結尾的行、提及JavaScript和cookie通知,以及去除不在長度閾值內的文檔,包含“lorem ipsum”或花括號{}),他們能夠匹配C4在Hellaswag上的表現。

然后,通過多次的消融研究,研究者確定了三個自定義過濾器在綜合分數上顯示出最顯著的改進:

  • 移除以標點符號結尾的行的比例≤0.12的文檔(移除了10.14%的token)
  • 移除在重復行中字符的比例≥0.1的文檔(移除了12.47%的token)
  • 移除短于30個字符的行的比例≥0.67的文檔(移除了3.73%的token)

圖片

當這三個過濾器一起應用時,大約22%的標記被移除。

這些過濾器使他們能夠進一步提高性能,并顯著地超過了C4數據集的性能,同時提供了一個更大的數據集。

FineWeb數據集的表現

通過與其他通常被認為是最高質量的公開可訪問的網絡規模數據集進行了消融比較,包括RefinedWeb(5000億個標記)、C4(1720億個標記)、Dolma v1.6(3萬億個標記)等, FineWeb(15萬億個標記)在允許訓練數萬億個標記的同時,帶來了目前最高的模型性能。

圖片

除此之外,該團隊還發布了FineWeb-Edu,FineWeb-Edu的開發采用了一種新方法,即利用合成數據來開發用于識別教育內容的分類器。

針對教育領域,通過增加教育質量評分的注釋和增加了單獨的評分系統,研究者創建了一個有效的分類器,可以在大規模數據集上識別和過濾出具有教育價值的內容。

FineWeb-Edu在教育基準測試如MMLU、ARC和OpenBookQA上取得了顯著改進,超過了 FineWeb和其他所有開放的網絡數據集。

圖片

同時,FineWeb-Edu的生成也證明了使用LLM注釋訓練的分類器在大規模數據過濾中的有效性。

在技術報告的最后,研究者表示,希望持續揭示高性能大型語言模型訓練的黑箱,并讓每個模型訓練者都能創建最先進的LLM。

他們也期待將FineWeb的經驗和學習應用到其他的非英文語言,使多語言的高質量網絡數據也能夠更容易地被獲取到。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-14 09:26:00

2013-05-09 10:30:44

開源軟件開源項目

2022-01-06 09:57:02

數據計算機神經網絡

2024-01-03 18:53:13

語言模型LLM

2025-03-18 08:00:00

豆包文生圖技術Seedream

2023-07-27 18:33:08

Go薪資JS

2025-03-13 07:00:00

2020-09-27 16:21:28

AI數據

2025-06-19 08:50:00

模型訓練數據

2024-08-14 14:22:00

2025-08-11 17:58:44

開源技術模型

2019-03-21 16:27:21

數據開發機器學習

2021-11-15 10:00:22

模型人工智能NLP

2021-04-19 11:02:06

阿里云達摩院AI

2023-07-09 15:24:58

2012-02-20 14:49:31

360垃圾短信

2023-12-21 13:26:13

谷歌Gemini大模型

2020-03-25 13:51:05

人工智能自動駕駛技術

2024-07-02 01:09:02

2024-08-28 08:25:25

Python預訓練模型情緒數據集
點贊
收藏

51CTO技術棧公眾號

亚洲精品国产无天堂网2021| 久久精品一区| 欧美精品九九99久久| 亚洲自拍偷拍网| 日b视频免费观看| 亚洲国产专区校园欧美| 91久久久久久久久久久久久| 激情欧美日韩一区| www亚洲国产| 久久久影视传媒| 99在线免费视频观看| 久久天天综合| 欧洲成人一区二区| 久久精品国产68国产精品亚洲| 久久久噜噜噜久噜久久| 亚洲成人在线| 欧美xx网站| 国产偷国产偷亚洲高清97cao| 电影一区二区三区久久免费观看| 久久久久国产精品www| 欧美一级做一级爱a做片性| 欧美精品久久久久久久久| 国产www免费| 99.玖玖.com| 性久久久久久久久| 黄色片免费在线观看| 伊人精品在线观看| 欧美成人xxxx| 亚洲自拍偷拍色图| 99精品一区二区| 成年人视频网站在线| 欧美精品在线免费观看| 日韩理论片av| 亚洲综合成人婷婷小说| 亚洲综合国产激情另类一区| 丝袜国产免费观看| 久久91精品国产91久久久| 免费在线欧美黄色| 成人自拍在线| 国内精品久久久久影院 日本资源| 欧美特黄视频| 成人在线免费观看网址| 欧美一区二区女人| 久久性感美女视频| 青青青在线播放| 国产精品扒开腿做爽爽爽男男 | 老司机精品视频在线| 三级毛片在线免费看| 中文字幕亚洲欧美| 337p粉嫩大胆噜噜噜噜噜91av| 三级在线看中文字幕完整版| 91最新国产视频| 9191成人精品久久| 国产精品久久久亚洲一区| 在线观看午夜看亚太视频| 欧美性大战久久久久| 亚洲福利在线视频| kk眼镜猥琐国模调教系列一区二区| 亚洲日韩中文字幕在线播放| 国产一区精品二区| 国产成人a亚洲精v品无码| 国产做受高潮69| 欧美日韩三级视频| 成人一道本在线| 视频在线观看入口黄最新永久免费国产 | 竹菊久久久久久久| 久久人人视频| 亚洲综合色激情五月| 日韩精品中文字幕在线不卡尤物| 久久66热re国产| 亚洲第一福利专区| 91蜜桃在线视频| 女人帮男人橹视频播放| 国产成人精品a视频一区www| 天天av天天翘天天综合网 | 国产v综合ⅴ日韩v欧美大片| 亚洲欧洲制服丝袜| 91综合在线| 风间由美一区| 久久国产精品精品国产色婷婷| 亚洲国产欧美在线人成| 久久99国产精品麻豆| 欧美巨大丰满猛性社交| 四虎影视国产在线视频| 偷偷要 色偷偷| 成人性教育视频在线观看| 91精品国产一区二区| 国产伦精品一区二区三区千人斩| 免费看男女www网站入口在线| 欧美a视频在线| 2021av在线| 国产精品裸体瑜伽视频| 国产成人精品视频在线观看| 亚洲国产私拍精品国模在线观看| 久久精品日产第一区二区三区高清版| 国产一区二区三区| 成年人视频在线观看免费| 欧美牲交a欧美牲交aⅴ免费真| 国内久久久精品| 精品国产三级a在线观看| 激情综合网av| 久久先锋影音av鲁色资源| 久久国产精品免费精品3p| 一区二区三区日本久久久 | 亚洲欧洲精品一区二区精品久久久 | 欧美性大战久久| 99re视频这里只有精品| 亚洲欧洲精品一区二区三区不卡| 亚洲成人av免费| 亚洲欧美激情诱惑| 中文字幕制服丝袜一区二区三区 | 亚洲激情在线观看| 国产精品不卡在线| 欧美一区二区三区免费| 日韩精品极品视频免费观看| 色网综合在线观看| 国产一区二区三区在线播放免费观看 | 日韩午夜在线观看| 一片黄亚洲嫩模| 中文字幕va一区二区三区| 成人性色生活片免费看爆迷你毛片| 精品9999| 在线综合欧美| 99在线观看免费视频精品观看| 91免费国产视频网站| 日韩限制级电影在线观看| 国产精品日韩在线播放| 欧美成熟毛茸茸复古| 成人激情直播| 你懂的视频在线一区二区| 久99久在线| 伊人永久在线| 在线观看视频你懂的| 日本欧美韩国国产| 日本在线高清| 久久资源中文字幕| 美国一区二区三区在线播放 | 理论片日本一区| 久久精品一区四区| 欧美色中文字幕| 精品国产乱码久久久久久老虎| 中文字幕亚洲一区在线观看 | 亚洲精品乱码久久久久久金桔影视| 亚洲美女久久久| 亚洲欧美日韩一区在线| 爱福利视频一区| 91tv亚洲精品香蕉国产一区7ujn| 四季av一区二区| 懂色av色香蕉一区二区蜜桃| 秋霞影院一区二区| 久久精品视频免费| 成人性生交大片免费看中文网站| 91精品国产综合久久国产大片 | 久久99国产精品视频| 99国产精品私拍| 亚洲精品乱码久久久久久日本蜜臀| 精品欧美久久久| 国产精品久久激情| 污视频网站免费看| 精品国产一区二区三区噜噜噜| 一区二区三区在线视频免费观看| 久久久久久久一区二区三区| 美女av免费在线观看| 捆绑调教日本一区二区三区| 欧美一区综合| 亚洲一级电影视频| 亚洲欧美一区二区三区在线| 91久久久精品| 日本aⅴ中文| 91黄页在线观看| 欧美成人黄色| 欧美在线三区| 日本va欧美va精品| 中文字幕一区二区三区蜜月| 69堂精品视频| 欧美猛交ⅹxxx乱大交视频| 性金发美女69hd大尺寸| 成人综合色站| 欧美爱爱视频网站| 又黄又爽又色视频| 久久综合国产精品| 欧美精品a∨在线观看不卡 | 97se亚洲国产综合自在线不卡| 亚洲国产精品久久久男人的天堂| 欧美精品中文字幕一区| 国产精品亚发布| 上原亚衣加勒比在线播放| 精品精品导航| 97久久综合区小说区图片区| 日韩久久精品网| 欧美第十八页| 青青草视频一区| 欧美精品在线一区二区三区| 成人看片在线| 午夜cr在线观看高清在线视频完整版| 欧美特黄不卡| 久久久久久久久久电影| 欧美优质美女网站| 91免费国产视频| 一本大道香蕉久在线播放29|