李飛飛+50美元+蒸餾 S1=? DeepSeekR1 精華
最近DeepseekR1大火,標(biāo)題黨紛紛湊熱鬧,s1真的有這么牛嗎?


下面,我們來解讀一下S1
S1用了不到50美元,訓(xùn)練出了媲美Deepseek的原因

- 微調(diào)樣本量小,所需訓(xùn)練資源少:
構(gòu)造微調(diào)樣本時,精心挑選了1000個問題,通過Gemini Thinking Experimental中提取這些問題的推理軌跡和答案。
實驗中發(fā)現(xiàn),隨機(jī)選擇、選擇具有最長推理軌跡的樣本或僅選擇最大多樣性的樣本,都會導(dǎo)致性能顯著下降。
因此,使用59K個示例的完整數(shù)據(jù)池(s1K的超集)進(jìn)行訓(xùn)練,并沒有比選擇的1K樣本帶來顯著的提升。
用1K數(shù)據(jù)對現(xiàn)成的預(yù)訓(xùn)練模型進(jìn)行監(jiān)督微調(diào) (SFT),在小型數(shù)據(jù)集上僅需在16個H100 GPU上進(jìn)行26分鐘的訓(xùn)練。
并且不是從0開始訓(xùn)練一個大模型,當(dāng)然訓(xùn)練所需花的錢,不到50美元。
這給了我們的啟示是:在領(lǐng)域微調(diào)時,精心挑選1000條左右的問答數(shù)據(jù)就完全足夠了。
- 訓(xùn)練后,使用預(yù)算強(qiáng)制(Budget forcing)策略來控制模型測試時的計算量:

- 通過強(qiáng)制終止模型的思考過程或在模型試圖結(jié)束時多次附加“等待”來延長其生成過程。
- 強(qiáng)制終止:如果模型生成的思考符元數(shù)量超過預(yù)設(shè)限制,通過附加一個思考結(jié)束分隔符(end-of-thinking token delimiter),作為結(jié)束標(biāo)記來強(qiáng)制結(jié)束思考過程,并且過渡到生成答案。
- 延長思考:如果我們希望模型在一個問題上花費(fèi)更多測試時計算量,我們抑制思考結(jié)束分隔符的生成,而是將“等待”(Wait)字符附加到模型當(dāng)前的推理軌跡中,以鼓勵更多探索。

訓(xùn)練樣本的選擇方法介紹
訓(xùn)練樣本的篩選,需要根據(jù)質(zhì)量(Quality)、難度(Difficulty)和多樣性(Diversity)三個標(biāo)準(zhǔn)篩選來篩選
- 質(zhì)量篩選:通過人工檢查樣本,排除格式錯誤或質(zhì)量低下的數(shù)據(jù);
- 難度篩選:利用兩個預(yù)訓(xùn)練模型(Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct)評估問題的難度,選擇模型無法正確解答的問題;
- 多樣性篩選:根據(jù)數(shù)學(xué)主題分類系統(tǒng)(MSC)對問題進(jìn)行分類,從每個領(lǐng)域中選擇具有較長推理鏈的問題,以確保覆蓋不同類型的推理任務(wù)。
本文轉(zhuǎn)載自??CourseAI??,作者: CourseAI ????
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報
回復(fù)
相關(guān)推薦

















