BOSS直聘3B超越Qwen3-32B,更多訓練數據刷新小模型極限
一款僅有30億參數的小模型,在數學和推理能力上超越了320億參數的大模型。

BOSS直聘Nanbeige大語言模型實驗室,開源了它們的Nanbeige4-3B模型。

23萬億Token重塑小模型潛能
對于一個3B級別的模型,通常的訓練量可能在幾萬億token,但Nanbeige4-3B直接將這一數字拉升到了23T(23萬億),為了通過重復和強化,將知識壓實在有限的參數空間里。
數據的篩選是這一切的基石,單純的數據堆砌只會帶來噪聲,為了從海量數據中提煉出這23T的高質量語料,團隊設計了一套混合數據過濾機制,這套機制包含兩個核心維度:基于標簽的評分和基于檢索的召回。
多維標簽系統不再滿足于簡單的格式分類,而是深入到內容層面。
團隊定義了超過60個維度,最終精選出20個關鍵維度進行人工標注,包括知識密度、推理密度和文本流暢度等。
實驗發現,內容相關的標簽比格式標簽更能預測數據質量,且0到9的精細打分比簡單的0/1二分類要準確得多,配合數千億條目的檢索數據庫,團隊得以在保證數據來源權威性的同時,剔除了數十萬億的低質token,最終保留下的23T數據,構成了模型強大的知識底座。
為了讓模型更好地消化這些數據,訓練調度器也進行了革新。
傳統的WSD(預熱-穩定-衰減)調度器雖然有效,但在數據利用上仍顯粗糙,Nanbeige4-3B引入了FG-WSD(細粒度預熱-穩定-衰減)調度器,其核心在于漸進式優化。
在漫長的穩定訓練階段,數據配比并非一成不變,而是被切分為多個更細的階段,隨著訓練的進行,高質量數據的比例逐步提升,這種策略確保了模型在這一階段能夠持續獲得新的高質量信息刺激,而不是在低質數據的重復中停滯不前。
實驗數據佐證了這一策略的有效性,在1B參數模型的對比測試中,使用FG-WSD的模型在GSM8k(數學推理)上的得分從27.1提升到了34.3,在MMLU(多任務語言理解)上從49.2提升到了50.6,這種提升并非來自參數的增加,純粹源于數據喂養節奏的優化。

這種調度器還將最后的衰減階段加以利用,采用ABF(調整基頻)方法將上下文長度擴展到了64K,這讓模型在預訓練結束前,能夠完整消化長思維鏈、學術論文和大規模代碼庫,確保長文本處理能力不出現截斷損失。
千萬級指令微調構建推理基座
進入后訓練階段,Nanbeige4-3B打破了另一個行業迷思,即高質量微調數據只需少量即可。
雖然對于簡單的指令遵循任務,少量數據或許足夠,但對于旨在突破推理極限的模型而言,數據的廣度和深度依然缺一不可。
在冷啟動SFT(監督微調)階段,團隊并未通過幾千條數據淺嘗輒止,而是清洗并構建了約3000萬條高質量問答樣本。
這3000萬樣本涵蓋了數學、代碼和學科推理,其中數學推理占比50%,科學推理占30%,代碼占20%。
為了讓模型學會思考,所有訓練數據的上下文長度都被拉到了32K,這種大規模的冷啟動訓練,實際上是為模型注入了強大的推理先驗,使其思維鏈(CoT)的生成策略更加穩定。

有了扎實的冷啟動基礎,全面SFT階段進一步引入了更加復雜的任務,包括通用對話、Agent(智能體)交互、高難推理和代碼任務。
在這個階段,團隊設計了一套解決方案精煉與CoT重構的聯合機制,專門解決復雜任務中答案質量與推理過程不匹配的問題。
針對每一個指令,系統首先構建一個多維評估清單,根據具體問題動態生成的檢查點,涵蓋正確性、完整性、可執行性等。
隨后,系統會調用多個教師模型生成候選答案,并利用評估模型進行交叉打分和批判,選出最佳答案,或者基于反饋讓模型進行多輪自我修正,直到得到一個高質量的最終解。
這還不夠,團隊訓練了一個專門的思維鏈補全模型,它接收原始問題和最終的高質量答案作為輸入,反向推導出一條邏輯嚴密、條理清晰的思維鏈。
這種先有果后有因的重構方式,確保了SFT數據既有正確的終點,又有清晰的路徑,極大地提升了訓練效率。

這種精細的數據工程讓Nanbeige4-3B在SFT階段就積累了深厚的內功,不僅保留了冷啟動階段的強推理能力,還在通用對話和任務執行上變得更加圓融。
雙重蒸餾與多階段強化學習
微調之后,模型的能力已經成型,但為了進一步逼近大模型的表現,蒸餾(Distillation)和強化學習(RL)成為了關鍵的助推器。
Nanbeige4-3B采用了一種DPD(雙重偏好蒸餾)的新方法,它不僅僅是讓小模型模仿大模型的輸出概率,而是引入了偏好優化的思想。
在DPD框架中,教師模型Nanbeige3.5-Pro會生成多個回復,經過篩選得到正樣本,而正在訓練的學生模型則生成負樣本。
訓練目標包含兩部分:在正樣本上,學生模型要盡可能擬合教師模型的概率分布,學習怎么說是對的;在負樣本上,學生模型同樣參考教師的分布,目的是降低那些模型盲目自信的錯誤token的概率,學習怎么說是不對的以及如何糾正錯誤。
同時,配合序列級別的DPO(直接偏好優化)損失函數,拉大正負樣本之間的得分差距,這種雙管齊下的策略,讓小模型在邏輯推理和人類偏好對齊上同時取得了進步。

強化學習階段則被劃分為三個明確的階段,分別針對STEM(科學、技術、工程、數學)、代碼和人類偏好,避免了混合訓練導致的領域能力互斥。
在STEM階段,為了解決數學答案形式多樣(如分數、小數、表達式)導致的評估難題,團隊引入了工具增強的驗證器,調用Python解釋器進行精確計算,不再依賴脆弱的字符串匹配。
代碼強化學習階段則更加硬核,采用了合成測試函數的策略。
系統逆向操作,先生成代碼解決方案和測試用例,再生成對應的自然語言問題描述,所有數據都經過沙盒執行驗證,確保在RL訓練時,獎勵信號是絕對客觀真實的——代碼跑通就是1,跑不通就是0。
最后的人類偏好對齊階段,為了避免一般獎勵模型存在的耗時和被Hack(攻擊)風險,團隊訓練了一個成對獎勵模型,它不需要生成長篇大論的評價,只需對兩個回復的優劣做出快速判斷。
這種高效的信號反饋機制,讓模型在創意寫作和角色扮演等開放任務上的表現更加符合人類直覺。這讓它在寫作綜合基準WritingBench上脫穎而出,與眾多閉源、開源大模型比較排到了第11位。

在每個RL階段開始前,團隊都會進行On-Policy(策略內)的數據過濾,使用當前模型對所有訓練問題進行測試,只保留通過率在10%到90%之間的樣本,剔除那些對當前模型來說太簡單或太難的問題,確保每一次訓練更新都用在刀刃上。
性能越級挑戰與小模型新范式
經過這一系列復雜而精密的訓練流程,Nanbeige4-3B交出的答卷令人印象深刻,在與Qwen(通義千問)系列模型的對比中,它展現出了驚人的越級打擊能力。

在數學推理領域,AIME 2024基準測試中,Nanbeige4-3B取得了90.4的高分,不僅遠超同級別的Qwen3-4B(81.3)和8B(76.0),甚至擊敗了參數量十倍于己的Qwen3-32B(81.4)和Qwen3-30B-A3B(89.2)。
在AIME 2025上,它同樣以85.6的成績傲視群雄,超越了32B模型的72.9分。
科學推理方面,GPQA-Diamond測試集上,Nanbeige4-3B拿下了82.2分,遠超Qwen3-32B的68.7分,也優于Qwen3-30B-A3B的73.4分,這一成績證明了其在處理專家級科學問題時的可靠性。
在代碼和工具使用上,Nanbeige4-3B同樣表現不俗,在BFCL-V4(伯克利函數調用排行榜)中,它獲得了53.8分,比Qwen3-30B-A3B高出5.2分,這得益于其對Function Call(函數調用)的原生支持和專門的Agent數據訓練。
即使在主觀的人類偏好對齊上,Nanbeige4-3B也沒有偏科,在Arena-Hard V2榜單上,它取得了60.0的分數,與Qwen3-30A3-2507持平,遠高于Qwen3-32B的48.4分,這表明它不僅是一個做題家,也是一個能夠流暢對話、理解人類意圖的好助手。
Nanbeige4-3B重新定義了3B這個參數量級的意義。
它證明了在有限的計算預算和存儲空間下,通過極致的數據工程、精細的訓練調度和先進的算法設計,完全可以獲得媲美甚至超越大模型的智能體驗。
對于那些受限于顯存、追求端側部署或希望降低推理成本的開發者而言,是非常好的選擇。



































