小紅書開源首個大模型,11萬億非合成訓(xùn)練數(shù)據(jù)
國內(nèi)著名社交平臺小紅書,開源了首個大模型——dots.llm1。
dots.llm1是一個1420億參數(shù)的專家混合模型(MoE),在推理過程中僅激活140億參數(shù),能保持高性能的同時大幅度降低訓(xùn)練和推理成本。
dots.llm1最大特色是使用了11.2萬億token的非合成高質(zhì)量訓(xùn)練數(shù)據(jù),這在現(xiàn)階段的開源大模型中非常罕見,看來小紅書也得益于自己龐大的語料庫出手就是闊啊。
所以,在中文測試中dots.llm1的性能非常強(qiáng),以91.3的平均分超過了DeepSeek開源的V2、V3和阿里開源的Qwen2.5 32B和72B。

開源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main
dots.llm1架構(gòu)簡單介紹
dots.llm1使用了單向解碼器Transformer架構(gòu),但把前饋網(wǎng)絡(luò)替換為MoE。在傳統(tǒng)的Transformer架構(gòu)中,每一層的前饋網(wǎng)絡(luò)是密集連接的,這意味著每一層都會對輸入的所有標(biāo)記進(jìn)行計算。在處理大規(guī)模數(shù)據(jù)時會消耗巨大的算力。
而MoE將模型分為多個專家網(wǎng)絡(luò),每個專家網(wǎng)絡(luò)專注于輸入數(shù)據(jù)的不同方面。在推理過程中,并不激活所有的專家網(wǎng)絡(luò),而是根據(jù)輸入標(biāo)記的特性,動態(tài)地選擇一小部分專家網(wǎng)絡(luò)進(jìn)行計算。這種稀疏激活的方式極大減少了算力的需求,同時保持了模型的高性能。

dots.llm1的MoE由128個路由專家和2個共享專家組成。每個專家網(wǎng)絡(luò)是一個兩層的前饋網(wǎng)絡(luò),使用了SwiGLU激活函數(shù)。SwiGLU是一種高效的激活函數(shù),它結(jié)合了門控機(jī)制和非線性激活,能夠更好地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系。
在每個輸入標(biāo)記的處理過程中,dots.llm1會通過一個路由機(jī)制選擇出6個最相關(guān)的專家網(wǎng)絡(luò),加上2個共享專家,總共激活8個專家網(wǎng)絡(luò)。這種選擇機(jī)制是動態(tài)的,會根據(jù)輸入標(biāo)記的特性來決定哪些專家網(wǎng)絡(luò)最適合處理當(dāng)前的標(biāo)記。
除了MoE模塊的設(shè)計,dots.llm1在注意力層也進(jìn)行了優(yōu)化。采用了經(jīng)典的多頭注意力機(jī)制(MHA),這是一種廣泛應(yīng)用于Transformer架構(gòu)中的注意力機(jī)制。
dots.llm1在MHA的基礎(chǔ)上引入了RMSNorm歸一化操作。RMSNorm是一種改進(jìn)的歸一化方法,通過計算輸入的均方根值來進(jìn)行歸一化,從而避免了輸入值過大或過小對模型訓(xùn)練的影響。這種歸一化操作在多頭注意力機(jī)制中尤為重要,因為注意力機(jī)制的輸出是多個頭的加權(quán)和,如果沒有適當(dāng)?shù)臍w一化,很容易出現(xiàn)數(shù)值不穩(wěn)定的情況。通過引入RMSNorm,dots.llm1能夠更好地控制注意力機(jī)制的輸出,從而提高模型的穩(wěn)定性和性能。

在MoE模塊中,dots.llm1還引入了無輔助損失的負(fù)載平衡策略。負(fù)載平衡是MoE架構(gòu)中的一個關(guān)鍵問題,因為如果專家網(wǎng)絡(luò)之間的負(fù)載不平衡,會導(dǎo)致一些專家網(wǎng)絡(luò)被過度使用,而另一些專家網(wǎng)絡(luò)則很少被激活。
這種不平衡不僅會影響模型的性能,還會降低計算效率。dots.llm1通過引入一個動態(tài)調(diào)整的偏置項來解決這個問題。偏置項會根據(jù)每個專家網(wǎng)絡(luò)的負(fù)載情況動態(tài)調(diào)整,從而確保所有專家網(wǎng)絡(luò)的負(fù)載相對平衡,不僅能夠有效地解決負(fù)載不平衡的問題,而且不會引入額外的損失函數(shù),從而避免了對模型性能的負(fù)面影響。
此外,dots.llm1在訓(xùn)練過程中還采用了AdamW優(yōu)化器進(jìn)一步提高模型的性能和效率。這是一種改進(jìn)的Adam優(yōu)化器,它通過引入權(quán)重衰減來防止模型過擬合,同時采用了梯度裁剪技術(shù),通過限制梯度的最大值來避免梯度爆炸的問題。
dots.llm1訓(xùn)練數(shù)據(jù)
數(shù)據(jù)處理是大模型訓(xùn)練的基石,dots.llm1一共使用了11.2萬億token非合成數(shù)據(jù),并構(gòu)建了一套三級數(shù)據(jù)處理流水線,從雜亂無章的原始網(wǎng)頁數(shù)據(jù)中篩選出高質(zhì)量的語料。
在第一階段的文檔準(zhǔn)備中,利用URL過濾技術(shù)屏蔽成人、賭博等有害域名,通過 trafilatura 庫精準(zhǔn)提取正文內(nèi)容,借助 fastText 語言檢測工具,將置信度 <0.65 的文檔果斷丟棄,并采用 MD5 去重方法去除重復(fù)數(shù)據(jù),同時將中英文數(shù)據(jù)比例精心控制在 1:1。
第二階段的規(guī)則處理同樣至關(guān)重要,通過行級去重,刪除前5行/后5行中出現(xiàn)超200次的重復(fù)行;利用啟發(fā)式過濾移除廣告、注冊提示等低質(zhì)內(nèi)容;借助MinHash - LSH 模糊去重,保留 Jaccard 相似度< 80%的文檔,這一系列操作剔除了約 30% 的低質(zhì)內(nèi)容。
第三階段的模型處理堪稱畫龍點睛之筆,運(yùn)用15億參數(shù)分類器精準(zhǔn)區(qū)分“文本詳情頁” 與工具 / 視頻頁面,保留高價值內(nèi)容;通過自主開發(fā)的網(wǎng)頁雜波去除模型逐行評分(0 - 1 分),過濾掉導(dǎo)航欄、邊框等無關(guān)內(nèi)容;

最后通過 200 類分類器平衡數(shù)據(jù)分布,將百科、科普等知識性內(nèi)容占比提升至 60%,大幅減少小說和產(chǎn)品描述至 15%。經(jīng)過TxT360數(shù)據(jù)集對比實驗驗證,該流水線處理后的網(wǎng)頁數(shù)據(jù)在 MMLU、TriviaQA 等基準(zhǔn)測試中表現(xiàn)優(yōu)于當(dāng)前 SOTA 開源數(shù)據(jù)。
值得一提的是,為了促進(jìn)學(xué)術(shù)研究,小紅書還開源了每1萬億token 的中間訓(xùn)練檢查點,為大模型的學(xué)習(xí)動態(tài)提供了寶貴的見解。




































