国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

字節新推理模型逆襲DeepSeek,200B參數戰勝671B,豆包史詩級加強?

人工智能 新聞
字節Seed團隊聚焦大規模強化學習,并從三個角度提升了推理表現:數據、RL算法和RL基礎設施。

字節最新深度思考模型,在數學、代碼等多項推理任務中超過DeepSeek-R1了?而且參數規模更小。

同樣是MoE架構,字節新模型Seed-Thinking-v1.5有200B總參數和20B激活參數。

對比DeepSeek-R1的671B總參數和37B激活參數,可以算得上輕量級了。

圖片

目前,完整的技術報告已公開發布,其中揭示了諸多秘訣。

字節Seed團隊聚焦大規模強化學習,并從三個角度提升了推理表現:數據、RL算法和RL基礎設施。

圖片

可驗證與不可驗證問題

從數據開始說起,字節團隊把RL訓練數據分為兩個部分,具有明確答案的可驗證問題和沒有明確答案的不可驗證問題,采用不同的獎勵建模方法。

這其中,模型的推理能力主要來自可驗證問題,并可以推廣到不可驗證問題。

可驗證問題包括問題與答案配對的STEM問題、附帶單元測試的代碼問題,以及適合自動驗證的邏輯推理問題(24點、迷宮、數獨等)。

不可驗證問題主要包括根據人類偏好評估的非推理任務,如創意寫作、翻譯、知識QA、角色扮演等。

對于不可驗證問題,字節團隊丟棄了樣本分數方差低、難度低的數據。此類數據可能過于簡單或已在數據集中大量表示。離線實驗表明,過度優化此類樣本會導致模型的探索空間過早崩潰并降低性能。

此外,團隊還打造了全新數學推理評測集BeyondAIME。

當前的推理模型通常使用AIME作為評估數學推理能力的首選基準,但該基準每年只發布30個問題,有限的規模可能會導致高方差的評估結果,難以有效區分最先進的推理模型。

字節與數學專家合作,根據既定的比賽形式開發原創問題。通過結構修改和情景重新配置來系統地調整現有的比賽問題,確保不會發生直接重復。此外還確保答案不是容易猜的數值(例如問題陳述中明確提到的數字),以減少模型在沒有適當推理的情況下猜出正確答案的機會。

RL算法

強化學習雖然強大,但訓練起來也很不穩定,經常崩潰。

字節在技術報告中提到”有時,兩次運行之間的分數差異可能高達10分”。

針對這個問題,團隊提出了VAPO和DAPO兩個RL框架,分別從基于價值和無價值的RL范式出發來穩定訓練。

圖片

VAPO和DAPO兩篇論文都已單獨發布。

圖片

圖片

此外,在Seed-Thining-v1.5中,還借鑒了之前學術界工作中的很多關鍵技術:

  • 價值預訓練(Value-Pretraining),保證價值網絡和策略網絡一致
  • 解耦的GAE(Decoupled-GAE),讓兩個網絡更獨立高效
  • 長度自適應GAE(Length-adaptive GAE),更好處理不同長度序列
  • 解耦PPO損失(Clip-Higher),為低概率token的增長創造,了更多空間鼓勵模型探索新方案
  • Token級損失(Token-level Loss),平衡每個token對訓練過程的影響。
  • 正例增強(Postive Example LM Loss),提高RL訓練過程中正樣本的利用效率,從而提高模型整體性能

圖片

RL基礎設施

在Long-CoT生成過程中,字節團隊觀察到各種提示詞之間的響應長度差異較大,在生成過程中出現大量GPU空閑時間。

為了緩解長尾響應生成的滯后問題,提出了SRS(流式Rollout系統),一種資源感知型調度框架,可戰略性地部署獨立的流式計算單元,將系統約束從內存綁定轉換為計算綁定。

為了有效地大規模訓練,團隊還設計了一個混合分布式訓練框架,集成高級并行策略、動態工作負載平衡和內存優化:

  • 并行機制:將TP (張量并行)/EP (專家并行)/CP (上下文并行)與全分片數據并行 (FSDP) 組合在一起,具體來說,將TP/CP 應用于注意力層,將EP應用于 MoE 層。
  • 序列長度平衡:DP等級之間的有效序列長度可能不平衡,導致計算工作量不平衡和訓練效率低下。利用KARP算法在一個mini-batch內重新排列輸入序列,使它們在micro-batch之間保持平衡。
  • 內存優化:采用逐層重新計算、激活卸載和優化器卸載來支持更大micro-batch的訓練,以覆蓋FSDP引起的通信開銷。
  • 自動并行:為了實現最佳系統性能,開發了AutoTuner 自動調整系統,按照基于配置文件的解決方案 對內存使用情況進行建模。然后估計各種配置的性能和內存使用情況以獲得最優配置。
  • 檢查點:使用ByteCheckpoint支持從不同的分布式配置中以最小的開銷恢復檢查點,彈性訓練以提高集群效率。

圖片

最終,在多項自動評估中,Seed-Thinking-v1.5在AIME 2024基準測試中取得86.7,與OpenAI的o3-mini-high模型的性能相當。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3級別的性能。

對于GPQA任務,Seed-Thinking-v1.5達到77.3%的準確率,接近o3-mini-high的性能。

在Codeforces等代碼生成場景中,Seed-Thinking-v1.5的性能與Gemini 2.5 Pro 的性能相當,但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表現不太理想。但團隊認為,該基準測試預訓練模型規模的相關性更強,而不是考驗推理能力。

圖片

許多人看完這篇技術報告,都很感興趣,不過找了一圈也沒找到模型在哪發布。

圖片

從技術報告的口徑來看,該模型與目前豆包中的Doubao-1.5 Pro并不是一回事。

但從作者名單看,這是由字節Seed團隊負責人吳永輝帶隊,主要成員都參與的大項目。

那么是否將來會部署到豆包APP,可以期待一波了。

圖片

論文地址:
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-11 12:04:58

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-06-17 08:45:00

模型智能工具

2025-03-07 08:30:00

2025-05-01 10:33:59

2025-03-06 08:11:25

2025-04-03 06:30:00

2025-09-02 10:20:10

2025-03-27 10:28:32

2025-04-03 15:57:48

2025-12-10 17:05:34

2025-07-18 09:55:11

2025-08-04 08:51:00

2025-07-18 10:12:00

2025-08-25 09:03:00

2025-06-25 08:54:03

模型訓練AI

2025-03-06 17:29:21

點贊
收藏

51CTO技術棧公眾號

女厕嘘嘘一区二区在线播放| 亚洲我射av| 久久电影天堂| 在线亚洲国产精品网| 欧美重口另类| 精品久久久久久中文字幕2017| 欧美一区二区日韩一区二区| 精品视频免费| 国产精品少妇在线视频| 亚洲奶大毛多的老太婆| 石原莉奈一区二区三区在线观看| 蜜臀久久99精品久久久酒店新书 | 亚洲一区二区三区视频| av国产精品| 五月天av影院| 欧美一级久久久| 欧美尿孔扩张虐视频| 成人黄色片视频| 欧美大荫蒂xxx| 日本一不卡视频| 成人免费图片免费观看| 俄罗斯精品一区二区| 欧美日韩国产页| 久久精品女人| 精品视频一区二区三区四区五区| 国产精品国产福利国产秒拍| 在线欧美一区| 在线看欧美视频| 日韩欧美视频第二区| 亚洲精品久久视频| 性高湖久久久久久久久| 羞羞的视频在线观看| 亚洲精品9999| 91精品久久久久久久99蜜桃 | 欧美亚洲另类色图| 久久久在线视频| 成人免费高清视频在线观看| 91伊人久久| 丁香六月激情网| 色综合久久精品亚洲国产| 中文字幕av资源一区| 一区二区三区四区电影| a视频在线免费看| 日本黄网站色大片免费观看| 97视频国产在线| 91精品国产91久久久久久最新毛片| 久久欧美肥婆一二区| 国产一区二区在线观| 日本视频在线播放| 最近中文字幕一区二区| 九九九九精品九九九九| 亚洲第一av网| 亚洲亚洲人成综合网络| 成人午夜av影视| 四虎成人av| 久久九九精品视频| 午夜小视频在线观看| 日韩精品一区二区三区不卡| 92看片淫黄大片欧美看国产片| 欧美日韩国产另类一区| 国产成人精品网址| 在线亚洲a色| 春暖花开成人亚洲区| 色综合97天天综合网| 国产亚洲精品自在久久| 日韩国产精品视频| 欧美日韩你懂的| 夜夜精品视频一区二区| 成人91在线观看| 视频一区中文字幕| 欧美一区影院| 中文字幕精品影院| 97caopron在线视频| 中文字幕桃花岛| 日韩欧美电影一区二区| 成人动漫在线视频| 国产精品久久久久77777| 亚洲成在人线免费| 日韩黄色免费电影| 国精品一区二区三区| 亚洲国产aⅴ精品一区二区| 视频一区在线免费看| 国产精品极品美女在线观看| av中文字幕在线观看| 欧美日韩色网| а√天堂8资源中文在线| 日韩另类在线| 黄网页免费在线观看| 黄网av在线| 成人性生交大片免费看网站| 亚洲一本大道| 国产高清视频在线| 国产精品—色呦呦| 四虎影视4hu4虎成人| 国产精品欧美久久久久一区二区| 久久影院亚洲| 成人情趣视频| 欧美日韩三级电影在线| 久久精品青草| 国产精品av久久久久久麻豆网| 风间由美中文字幕在线看视频国产欧美 | 国产亚洲综合在线| 亚洲国产cao| 欧美老女人在线| 中文字幕不卡av| 欧美日韩国产成人| 国产伦精品一区二区三毛| 日韩av电影免费观看高清| 国产mv免费观看入口亚洲| 国产一区香蕉久久| 精品日韩美女| 五月天综合网| 日本新janpanese乱熟| 色琪琪免费视频网站| 国产激情视频在线| 欧美久久一区二区三区| 欧美日本一区| 久久久久久久久久久99999| 香蕉av福利精品导航| 伊人久久久久久久久久久久久| 成人国产精品免费视频 | aaa在线观看| 欧美香蕉视频| 在线视频免费在线观看一区二区| 国产伦精一区二区三区| 无码av免费一区二区三区试看 | 亚洲午夜精品一区二区三区| 欧美成人全部免费| 精品国产自在精品国产浪潮| 一区二区三区在线视频免费| 亚洲激情自拍偷拍| 激情文学综合插| 在线日韩av| 日韩电影在线一区| 中文久久乱码一区二区| 日韩一区二区在线免费观看| 国产精品狼人色视频一区| 国产手机视频在线观看| 日韩精品视频一二三| 久久精品国产一区二区电影| 国产精品国产三级国产普通话99 | 黄页网站免费在线观看| 午夜国产一区二区三区| 水蜜桃色314在线观看| 深夜福利在线观看直播| 亚洲妇女av| 欧美国产日本韩| 欧美一级久久久| 久久天堂电影网| 天天想你在线观看完整版电影免费| 超碰电影在线播放| 日韩精品亚洲一区二区三区免费| 制服丝袜亚洲精品中文字幕| 狠狠爱一区二区三区| 欧美日韩在线精品一区二区三区激情综 | 亚洲跨种族黑人xxx| 亚洲一区二区在| 操你啦视频在线| 好看的日韩av电影| 在线亚洲欧美专区二区| 久久99精品国产99久久| 久久av色综合| av激情综合网| 欧美日韩精品二区第二页| 日韩区国产区| 可以在线观看的av网站| 中文日韩在线| 日韩av网站导航| 9久久婷婷国产综合精品性色 | 亚洲熟妇无码另类久久久| 精品福利一区| 精品国产1区二区| 欧美二区在线| 免费观影入口看日本视频| yiren22亚洲综合| 国产精品亚洲专一区二区三区| 亚洲第一页自拍| 东北少妇不带套对白| 国产精品色婷婷在线观看| 欧美韩国日本一区| 国产精品嫩草视频| 第三区美女视频在线| 美腿丝袜亚洲色图| 九九热最新视频//这里只有精品| 欧美婷婷精品激情| 亚洲成人精品| 日韩一级二级三级| 无码av天堂一区二区三区| 国内毛片久久| 91精品国产综合久久久久久久久久| 国产精品久久久久久久久电影网| 嗯用力啊快一点好舒服小柔久久| 日韩欧美在线视频免费观看| 麻豆传媒网站在线观看| 中文字幕亚洲影视| 亚洲第一区第二区| 日本免费视频www| 国产酒店精品激情| 精品乱码一区| 精品视频网站|