国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

BOSS直聘3B超越Qwen3-32B,更多訓練數據刷新小模型極限

人工智能 新聞
BOSS直聘Nanbeige大語言模型實驗室,開源了它們的Nanbeige4-3B模型。

一款僅有30億參數的小模型,在數學和推理能力上超越了320億參數的大模型。

BOSS直聘Nanbeige大語言模型實驗室,開源了它們的Nanbeige4-3B模型。

23萬億Token重塑小模型潛能

對于一個3B級別的模型,通常的訓練量可能在幾萬億token,但Nanbeige4-3B直接將這一數字拉升到了23T(23萬億),為了通過重復和強化,將知識壓實在有限的參數空間里。

數據的篩選是這一切的基石,單純的數據堆砌只會帶來噪聲,為了從海量數據中提煉出這23T的高質量語料,團隊設計了一套混合數據過濾機制,這套機制包含兩個核心維度:基于標簽的評分和基于檢索的召回。

多維標簽系統不再滿足于簡單的格式分類,而是深入到內容層面。

團隊定義了超過60個維度,最終精選出20個關鍵維度進行人工標注,包括知識密度、推理密度和文本流暢度等。

實驗發現,內容相關的標簽比格式標簽更能預測數據質量,且0到9的精細打分比簡單的0/1二分類要準確得多,配合數千億條目的檢索數據庫,團隊得以在保證數據來源權威性的同時,剔除了數十萬億的低質token,最終保留下的23T數據,構成了模型強大的知識底座。

為了讓模型更好地消化這些數據,訓練調度器也進行了革新。

傳統的WSD(預熱-穩定-衰減)調度器雖然有效,但在數據利用上仍顯粗糙,Nanbeige4-3B引入了FG-WSD(細粒度預熱-穩定-衰減)調度器,其核心在于漸進式優化。

在漫長的穩定訓練階段,數據配比并非一成不變,而是被切分為多個更細的階段,隨著訓練的進行,高質量數據的比例逐步提升,這種策略確保了模型在這一階段能夠持續獲得新的高質量信息刺激,而不是在低質數據的重復中停滯不前。

實驗數據佐證了這一策略的有效性,在1B參數模型的對比測試中,使用FG-WSD的模型在GSM8k(數學推理)上的得分從27.1提升到了34.3,在MMLU(多任務語言理解)上從49.2提升到了50.6,這種提升并非來自參數的增加,純粹源于數據喂養節奏的優化。

這種調度器還將最后的衰減階段加以利用,采用ABF(調整基頻)方法將上下文長度擴展到了64K,這讓模型在預訓練結束前,能夠完整消化長思維鏈、學術論文和大規模代碼庫,確保長文本處理能力不出現截斷損失。

千萬級指令微調構建推理基座

進入后訓練階段,Nanbeige4-3B打破了另一個行業迷思,即高質量微調數據只需少量即可。

雖然對于簡單的指令遵循任務,少量數據或許足夠,但對于旨在突破推理極限的模型而言,數據的廣度和深度依然缺一不可。

在冷啟動SFT(監督微調)階段,團隊并未通過幾千條數據淺嘗輒止,而是清洗并構建了約3000萬條高質量問答樣本。

這3000萬樣本涵蓋了數學、代碼和學科推理,其中數學推理占比50%,科學推理占30%,代碼占20%。

為了讓模型學會思考,所有訓練數據的上下文長度都被拉到了32K,這種大規模的冷啟動訓練,實際上是為模型注入了強大的推理先驗,使其思維鏈(CoT)的生成策略更加穩定。

有了扎實的冷啟動基礎,全面SFT階段進一步引入了更加復雜的任務,包括通用對話、Agent(智能體)交互、高難推理和代碼任務。

在這個階段,團隊設計了一套解決方案精煉與CoT重構的聯合機制,專門解決復雜任務中答案質量與推理過程不匹配的問題。

針對每一個指令,系統首先構建一個多維評估清單,根據具體問題動態生成的檢查點,涵蓋正確性、完整性、可執行性等。

隨后,系統會調用多個教師模型生成候選答案,并利用評估模型進行交叉打分和批判,選出最佳答案,或者基于反饋讓模型進行多輪自我修正,直到得到一個高質量的最終解。

這還不夠,團隊訓練了一個專門的思維鏈補全模型,它接收原始問題和最終的高質量答案作為輸入,反向推導出一條邏輯嚴密、條理清晰的思維鏈。

這種先有果后有因的重構方式,確保了SFT數據既有正確的終點,又有清晰的路徑,極大地提升了訓練效率。

這種精細的數據工程讓Nanbeige4-3B在SFT階段就積累了深厚的內功,不僅保留了冷啟動階段的強推理能力,還在通用對話和任務執行上變得更加圓融。

雙重蒸餾與多階段強化學習

微調之后,模型的能力已經成型,但為了進一步逼近大模型的表現,蒸餾(Distillation)和強化學習(RL)成為了關鍵的助推器。

Nanbeige4-3B采用了一種DPD(雙重偏好蒸餾)的新方法,它不僅僅是讓小模型模仿大模型的輸出概率,而是引入了偏好優化的思想。

在DPD框架中,教師模型Nanbeige3.5-Pro會生成多個回復,經過篩選得到正樣本,而正在訓練的學生模型則生成負樣本。

訓練目標包含兩部分:在正樣本上,學生模型要盡可能擬合教師模型的概率分布,學習怎么說是對的;在負樣本上,學生模型同樣參考教師的分布,目的是降低那些模型盲目自信的錯誤token的概率,學習怎么說是不對的以及如何糾正錯誤。

同時,配合序列級別的DPO(直接偏好優化)損失函數,拉大正負樣本之間的得分差距,這種雙管齊下的策略,讓小模型在邏輯推理和人類偏好對齊上同時取得了進步。

強化學習階段則被劃分為三個明確的階段,分別針對STEM(科學、技術、工程、數學)、代碼和人類偏好,避免了混合訓練導致的領域能力互斥。

在STEM階段,為了解決數學答案形式多樣(如分數、小數、表達式)導致的評估難題,團隊引入了工具增強的驗證器,調用Python解釋器進行精確計算,不再依賴脆弱的字符串匹配。

代碼強化學習階段則更加硬核,采用了合成測試函數的策略。

系統逆向操作,先生成代碼解決方案和測試用例,再生成對應的自然語言問題描述,所有數據都經過沙盒執行驗證,確保在RL訓練時,獎勵信號是絕對客觀真實的——代碼跑通就是1,跑不通就是0。

最后的人類偏好對齊階段,為了避免一般獎勵模型存在的耗時和被Hack(攻擊)風險,團隊訓練了一個成對獎勵模型,它不需要生成長篇大論的評價,只需對兩個回復的優劣做出快速判斷。

這種高效的信號反饋機制,讓模型在創意寫作和角色扮演等開放任務上的表現更加符合人類直覺。這讓它在寫作綜合基準WritingBench上脫穎而出,與眾多閉源、開源大模型比較排到了第11位。

在每個RL階段開始前,團隊都會進行On-Policy(策略內)的數據過濾,使用當前模型對所有訓練問題進行測試,只保留通過率在10%到90%之間的樣本,剔除那些對當前模型來說太簡單或太難的問題,確保每一次訓練更新都用在刀刃上。

性能越級挑戰與小模型新范式

經過這一系列復雜而精密的訓練流程,Nanbeige4-3B交出的答卷令人印象深刻,在與Qwen(通義千問)系列模型的對比中,它展現出了驚人的越級打擊能力。

在數學推理領域,AIME 2024基準測試中,Nanbeige4-3B取得了90.4的高分,不僅遠超同級別的Qwen3-4B(81.3)和8B(76.0),甚至擊敗了參數量十倍于己的Qwen3-32B(81.4)和Qwen3-30B-A3B(89.2)。

在AIME 2025上,它同樣以85.6的成績傲視群雄,超越了32B模型的72.9分。

科學推理方面,GPQA-Diamond測試集上,Nanbeige4-3B拿下了82.2分,遠超Qwen3-32B的68.7分,也優于Qwen3-30B-A3B的73.4分,這一成績證明了其在處理專家級科學問題時的可靠性。

在代碼和工具使用上,Nanbeige4-3B同樣表現不俗,在BFCL-V4(伯克利函數調用排行榜)中,它獲得了53.8分,比Qwen3-30B-A3B高出5.2分,這得益于其對Function Call(函數調用)的原生支持和專門的Agent數據訓練。

即使在主觀的人類偏好對齊上,Nanbeige4-3B也沒有偏科,在Arena-Hard V2榜單上,它取得了60.0的分數,與Qwen3-30A3-2507持平,遠高于Qwen3-32B的48.4分,這表明它不僅是一個做題家,也是一個能夠流暢對話、理解人類意圖的好助手。

Nanbeige4-3B重新定義了3B這個參數量級的意義。

它證明了在有限的計算預算和存儲空間下,通過極致的數據工程、精細的訓練調度和先進的算法設計,完全可以獲得媲美甚至超越大模型的智能體驗。

對于那些受限于顯存、追求端側部署或希望降低推理成本的開發者而言,是非常好的選擇。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-09-19 11:09:40

2025-09-29 09:01:36

2025-10-28 15:40:01

AI模型訓練

2025-10-17 09:08:05

2024-10-17 18:52:41

2024-03-27 09:09:57

模型AI開源

2012-11-23 09:50:28

32nm龍芯龍芯3B 1500

2025-08-19 16:10:46

AI模型開源

2025-09-12 10:02:21

AI模型開源

2025-09-15 08:52:00

AI模型開源

2025-10-13 09:06:00

2024-06-13 09:12:48

2025-06-09 15:25:03

模型AI訓練

2025-05-14 13:22:08

Qwen3訓練小模型

2024-01-17 12:08:32

模型訓練

2024-06-04 14:09:00

2025-05-06 09:55:00

2012-08-31 09:26:10

360互聯網百度

2023-11-28 12:49:37

數據訓練

2024-12-17 12:30:00

點贊
收藏

51CTO技術棧公眾號

午夜剧场成人观在线视频免费观看| 国产精品一区=区| 国产亚洲毛片| 美日韩在线视频| www日韩欧美| 色综合天天视频在线观看 | 亚洲一区二区三区在线观看视频| 国产精品wwwwww| 57pao精品| 国产精品无av码在线观看| 男女免费观看在线爽爽爽视频| 一区二区三区在线高清| 中日韩视频在线观看| 18成人在线观看| 午夜日韩电影| 性网站在线观看| 国产一线二线三线女| 亚洲欧美国产精品专区久久| 青椒成人免费视频| 精品日本美女福利在线观看| 色婷婷av一区二区三区久久| 国产精品视频网址| 免费在线国产精品| 国产高清在线| 美美哒免费高清在线观看视频一区二区 | 夜夜爽av福利精品导航| 97精品视频| 在线电影欧美日韩一区二区私密| 亚洲欧美激情网| 久久久久黄色| 大地资源网3页在线观看| 男人天堂综合| www.这里只有精品| 国产乱子伦农村叉叉叉| 亚洲一区二区精品在线观看| 青春草免费在线视频| 欧美精品一区二区三区中文字幕| 九九热精品在线播放| 国模无码大尺度一区二区三区| 国产一区二区三区站长工具| 日韩欧美中文字幕在线视频 | 亚洲大片免费看| 精品免费视频123区| 岛国片av在线| 一区二区三区在线观看视频| 欧洲日本在线| 成人免费视频视频在线观看免费| 91精品国产乱码久久久久久久久| 97视频网站| 亚洲免费高清| 欧美精品123| 超碰人人在线| 亚洲欧美激情精品一区二区| 日本精品黄色| 精品国产一区二区三区久久影院| 肥熟一91porny丨九色丨| avove在线观看| 9999热视频在线观看| 五月婷婷久久丁香| 国产真人无码作爱视频免费| 污污的视频在线观看| 欧美伊人久久久久久午夜久久久久| 精品日韩一区二区| 国产成人一区二区| 国产尤物99| 成人一区二区电影| 无码毛片aaa在线| 成人性色av| 欧美成人黄色网址| 激情久久综合| 久草在线新资源| 69久久夜色| 围产精品久久久久久久| 久久午夜视频| 欧美一级大片在线免费观看| 亚欧日韩另类中文欧美| 手机av免费在线| 亚洲免费电影一区| 九九热精品视频| 欧美美女黄色| 午夜精品福利在线| 国产一区 在线播放| 9999国产精品| 日韩国产欧美精品| 黄色av一区| 国产精品一区二区电影| 日韩av一二三| 欧美r片在线| 日本一区二区三区高清不卡| 亚洲午夜久久久影院伊人| 国产三级精品三级| 精品丰满人妻无套内射| 欧美日韩国产专区| 91成人精品观看| 亚洲少妇激情视频| 成人在线网址| 欧洲成人在线观看| gogo人体一区| 久久综合久久八八| 欧美大片免费高清观看| 亚洲第一精品久久忘忧草社区| 中国日本在线视频中文字幕| 欧美丰满少妇xxxxx| 亚洲精品555| 中文字幕精品久久| 久久福利在线| 日韩欧美激情一区二区| 亚洲一本大道在线| 四色成人av永久网址| 日韩在线免费av| 丝袜美腿亚洲色图| 国产三级在线免费| 国产精品免费久久久久影院| 久久网站热最新地址| 色多多视频在线播放| 日本一区二区免费在线观看视频| 三级资源在线| 久久99精品久久久久久秒播放器| 中国女人久久久| 中文日本高清免费| 在线免费观看一区| 91在线免费看| 国产精品小说在线| 一区二区不卡在线视频 午夜欧美不卡在 | 久久精品一区二区三区不卡| 日韩精品―中文字幕| 亚洲精品成人久久久| 成人在线网站| 高清欧美性猛交xxxx黑人猛交| 国产精品极品| 国产成人午夜电影网| 乱子伦一区二区| 亚洲精品一区二区三区香蕉| 国产欧美日韩一区二区三区在线| 在线日本中文字幕| 国外成人在线视频网站| 555夜色666亚洲国产免| 中文字幕不卡三区视频| 九九精品视频在线| 国产女人18毛片水真多成人如厕 | 成人福利在线观看视频| 久久99精品久久久水蜜桃| 欧美日韩在线一区二区| 韩国日本一区| 香蕉久久夜色| 国产肉丝袜一区二区| 91综合久久爱com| 97碰碰碰免费公开在线视频| 国产精品狠色婷| 欧美视频中文字幕| 国产精品女主播一区二区三区| 97人人在线视频| 免费观看日韩毛片| 欧美天堂一区二区三区| 日本视频中文字幕一区二区三区| 男人天堂视频在线观看| 午夜免费在线观看精品视频| 亚洲女厕所小便bbb| 青春草视频在线观看| 粉嫩av一区二区三区天美传媒| 亚洲人成在线观看一区二区| 超碰在线免费公开| 国产高清免费在线| 亚洲电影一区二区| 好看不卡的中文字幕| av中文在线资源库| 亚洲综合欧美激情| 国产三区精品| 日韩中文字幕在线视频| 亚洲欧美另类图片小说| 伊人成人在线| 久久久久久久性潮| 制服黑丝国产在线| 青青草久久网络| ...av二区三区久久精品| 午夜精品剧场| 欧美aa在线| 国产日本韩国在线播放| 日韩精品欧美国产精品忘忧草| 啪啪国产精品| 大片免费播放在线视频| 2019av中文字幕| 欧美日韩综合一区| aaa欧美色吧激情视频| 成人在线影视| 亚洲人成无码www久久久| 精品少妇一区二区| 久久久精品综合| 国产综合婷婷| 亚洲国产伊人| 日本天堂免费a| 欧美日本一道本在线视频| 精品国产影院| 国产尤物av一区二区三区| 97精品欧美一区二区三区| 欧美一区二区视频观看视频| 欧美亚韩一区| 欧美孕妇性xxxⅹ精品hd| 欧洲成人在线视频| 日韩成人在线播放|