字節新推理模型逆襲DeepSeek，200B參數戰勝671B，豆包史詩級加強？

作者：量子位 2025-04-11 12:10:33

字節Seed團隊聚焦大規模強化學習，并從三個角度提升了推理表現：數據、RL算法和RL基礎設施。

字節最新深度思考模型，在數學、代碼等多項推理任務中超過DeepSeek-R1了？而且參數規模更小。

同樣是MoE架構，字節新模型Seed-Thinking-v1.5有200B總參數和20B激活參數。

對比DeepSeek-R1的671B總參數和37B激活參數，可以算得上輕量級了。

目前，完整的技術報告已公開發布，其中揭示了諸多秘訣。

字節Seed團隊聚焦大規模強化學習，并從三個角度提升了推理表現：數據、RL算法和RL基礎設施。

可驗證與不可驗證問題

從數據開始說起，字節團隊把RL訓練數據分為兩個部分，具有明確答案的可驗證問題和沒有明確答案的不可驗證問題，采用不同的獎勵建模方法。

這其中，模型的推理能力主要來自可驗證問題，并可以推廣到不可驗證問題。

可驗證問題包括問題與答案配對的STEM問題、附帶單元測試的代碼問題，以及適合自動驗證的邏輯推理問題（24點、迷宮、數獨等）。

不可驗證問題主要包括根據人類偏好評估的非推理任務，如創意寫作、翻譯、知識QA、角色扮演等。

對于不可驗證問題，字節團隊丟棄了樣本分數方差低、難度低的數據。此類數據可能過于簡單或已在數據集中大量表示。離線實驗表明，過度優化此類樣本會導致模型的探索空間過早崩潰并降低性能。

此外，團隊還打造了全新數學推理評測集BeyondAIME。

當前的推理模型通常使用AIME作為評估數學推理能力的首選基準，但該基準每年只發布30個問題，有限的規模可能會導致高方差的評估結果，難以有效區分最先進的推理模型。

字節與數學專家合作，根據既定的比賽形式開發原創問題。通過結構修改和情景重新配置來系統地調整現有的比賽問題，確保不會發生直接重復。此外還確保答案不是容易猜的數值（例如問題陳述中明確提到的數字），以減少模型在沒有適當推理的情況下猜出正確答案的機會。

強化學習雖然強大，但訓練起來也很不穩定，經常崩潰。

字節在技術報告中提到”有時，兩次運行之間的分數差異可能高達10分”。

針對這個問題，團隊提出了VAPO和DAPO兩個RL框架，分別從基于價值和無價值的RL范式出發來穩定訓練。

VAPO和DAPO兩篇論文都已單獨發布。

此外，在Seed-Thining-v1.5中，還借鑒了之前學術界工作中的很多關鍵技術：

在Long-CoT生成過程中，字節團隊觀察到各種提示詞之間的響應長度差異較大，在生成過程中出現大量GPU空閑時間。

為了緩解長尾響應生成的滯后問題，提出了SRS（流式Rollout系統），一種資源感知型調度框架，可戰略性地部署獨立的流式計算單元，將系統約束從內存綁定轉換為計算綁定。

為了有效地大規模訓練，團隊還設計了一個混合分布式訓練框架，集成高級并行策略、動態工作負載平衡和內存優化：

并行機制：將TP （張量并行）/EP （專家并行）/CP （上下文并行）與全分片數據并行（FSDP）組合在一起，具體來說，將TP/CP 應用于注意力層，將EP應用于 MoE 層。
序列長度平衡：DP等級之間的有效序列長度可能不平衡，導致計算工作量不平衡和訓練效率低下。利用KARP算法在一個mini-batch內重新排列輸入序列，使它們在micro-batch之間保持平衡。
內存優化：采用逐層重新計算、激活卸載和優化器卸載來支持更大micro-batch的訓練，以覆蓋FSDP引起的通信開銷。
自動并行：為了實現最佳系統性能，開發了AutoTuner 自動調整系統，按照基于配置文件的解決方案對內存使用情況進行建模。然后估計各種配置的性能和內存使用情況以獲得最優配置。
檢查點：使用ByteCheckpoint支持從不同的分布式配置中以最小的開銷恢復檢查點，彈性訓練以提高集群效率。