国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

訓練1000樣本就能超越o1,李飛飛等人畫出AI擴展新曲線

人工智能 新聞
最近一段時間,全世界的科技公司、研究團隊都在嘗試復現 DeepSeek,但如果這個時候有人說「我還能大幅改進 AI 的推理效率」,你會怎么想?

今年 1 月,DeepSeek R1 引爆了全球科技界,它創新的方法,大幅簡化的算力需求撼動了英偉達萬億市值,更引發了全行業的反思。在通往 AGI(通用人工智能)的路上,我們現在不必一味擴大算力規模,更高效的新方法帶來了更多的創新可能。

最近一段時間,全世界的科技公司、研究團隊都在嘗試復現 DeepSeek,但如果這個時候有人說「我還能大幅改進 AI 的推理效率」,你會怎么想?

s1 論文作者,斯坦福大學在讀博士 Niklas Muennighoff 表示,DeepSeek r1 令人興奮,但其缺少 OpenAI 的測試時間擴展圖并且需要大量數據。我們推出的 s1 僅使用 1K 樣本和簡單的測試時間干預即可重現 o1 的預覽擴展和性能。

這個新方法叫 s1。本周,斯坦福大學、華盛頓大學等研究機構嘗試了最簡化實現測試時間擴展(test-time scaling)的方法,僅讓模型訓練 1000 個問題就獲得了超越 o1 的強推理性能。

測試時間擴展是一種有前途的語言建模新方法,它使用額外的測試時間計算來提高模型性能。此前,OpenAI 的 o1 模型展示了這種能力,但并未公開分享其方法。很多工作都在嘗試復現 o1,這些嘗試包含蒙特卡洛樹搜索、多智能體等等。今年 1 月開源的 DeepSeek R1 成功實現了 o1 級別的性能,它是在數百萬個樣本上通過多訓練階段強化學習實現的。

在 s1 的新工作中,研究人員尋求最簡單的方法來實現測試時間擴展。它們構建了一個小型數據集 s1K,其中包含 1000 個問題,并根據三個標準(難度、多樣性和質量)與推理軌跡進行配對。

在此基礎上,研究人員開發了「預算強制」來控制測試時間計算,方法是強制終止模型的思考過程,或者在模型試圖結束時多次將「等待」附加到模型的生成中以延長思考。這有可能會導致模型仔細檢查其答案,修復其不正確的推理步驟。

在 s1K 上對 Qwen2.5-32B-Instruct 語言模型進行監督微調(16 塊 H100 GPU,26 分鐘)并為其設定預算強制后,新模型 s1-32B 在競賽數學問題上的表現比 o1-preview 高出 27%(MATH 和 AIME24)。

圖片

s1 性能與其他大模型的對比。

圖片


  • 論文:《s1: Simple test-time scaling》 
  • 論文鏈接:https://arxiv.org/abs/2501.19393
  • 項目鏈接:https://github.com/simplescaling/s1

測試時間擴展

本文將測試時間擴展方法分為兩類:

  1. 序列擴展,即后續計算依賴于先前的計算結果;
  2. 并行擴展,即計算獨立運行。

本文專注于序列擴展,因為直觀上其具有更好的擴展性,因為后續計算可以基于中間結果進行,從而實現更深層次的推理和迭代優化。

此外,本文還提出了新的序列擴展方法以及對其進行基準測試的方式。

預算強制(Budget forcing)。本文提出了一種簡單的解碼時間(decoding-time )干預方法,通過在測試時強制設定最大或最小思考 token 數量來實現。圖 3 為該方法的一個示例展示,說明了這種簡單的方法可以引導模型得出更好的答案。

圖片

具體來說,本文通過簡單地追加思考結束(end-of-thinking)token 分隔符和「Final Answer:」來強制設定最大 token 數量,從而提前退出思考階段,使模型提供其當前的最佳答案。為了強制設定最小 token 數量,本文抑制思考結束 token 分隔符的生成,并選擇性地在模型的當前推理軌跡后追加字符串「Wait」,以鼓勵模型反思其當前生成的內容。

基線。本文用以下方法對預算強制進行基準測試:

(I)條件長度控制方法,該方法依賴于在提示中告訴模型它應該生成多長時間。本文按粒度將它們分組為(a)token 條件控制,在提示中指定思考 token 的上限;(b)步驟條件控制,指定思考步驟的上限;(c)類條件控制,編寫兩個通用提示,告訴模型思考一小段時間或很長一段時間。

(II)拒絕采樣,即采樣直到生成符合預定的計算預算。

實驗

在訓練階段。本文使用 s1K 數據集對 Qwen2.5-32B-Instruct 進行監督微調,以獲得本文的模型 s1-32B。微調是在 16 臺 NVIDIA H100 GPU 上使用 PyTorch FSDP 進行的,耗時 26 分鐘。

評估。本文采用了三個推理基準進行評估。

  • AIME24 包含 30 個問題,這些問題來自 2024 年 1 月 31 日至 2 月 1 日舉行的美國 AIME 數學競賽。AIME 用來測試模型在算術、代數、計數、幾何、數論、概率等領域的能力;
  • MATH500 是一個包含不同難度競賽數學問題的基準;
  • GPQA Diamond 包含 198 個來自生物學、化學和物理學的博士級科學問題。

其他模型。本文將 s1-32B 與以下模型進行基準測試對比:OpenAI o1 閉源系列模型;DeepSeek r1 開源模型;Qwen 的 QwQ-32B-preview 等模型。

值得一提的是,s1-32B 是完全開源的,包括權重、推理數據和代碼。

性能

測試時間擴展。圖 1 展示了 s1-32B 在使用預算強制技術后,隨著測試時間計算資源的增加,性能的變化情況。

圖片

圖 4(左)擴展了圖 1(中)的圖表,結果顯示雖然本文可以通過預算強制技術和更多的測試時計算資源提升 AIME24 的性能,但最終在六倍計算量時趨于平緩。可以得出過于頻繁地抑制思考結束 token 分隔符可能會導致模型陷入循環重復,而不是持續推理。

圖 4(右)展示了在對 Qwen2.5-32B-Instruct 進行 1,000 個樣本的訓練,從而生成 s1-32B,并為其配備簡單的預算強制技術后,它進入了一種不同的擴展范式。通過多數投票在基礎模型上擴展測試時間計算資源無法趕上 s1-32B 的性能,這驗證了這一直覺,即序列擴展比并行擴展更有效。

圖片

圖 5 提供了 s1-32B 的生成示例。

圖片

樣本效率。圖 2(右)和表 1 將 s1-32B 與其他模型進行了比較。

結果顯示, s1-32B 是樣本效率最高的開放數據推理模型。盡管只在額外的 1000 個樣本上進行訓練,但它的表現明顯優于基礎模型(Qwen2.5-32B-Instruct)。

r1-32B 在僅使用 SFT 的情況下表現出比 s1-32B 更好的性能,但前者是在 800 倍以上的推理樣本上進行訓練的。僅用 1000 個樣本是否能達到這個性能還是一個懸而未決的問題。

s1-32B 在 AIME24 上幾乎與 Gemini 2.0 Thinking 相匹配,因為 s1-32B 是從 Gemini 2.0 中蒸餾出來的,這表明本文的蒸餾程序可能是有效的。

圖片

圖片

最后,本文還進行了一系列消融實驗,感興趣的讀者,可以查看原論文,了解更多內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-06-09 16:55:49

阿里云分布式數據庫

2025-02-03 14:17:27

2020-06-15 10:42:42

谷歌Android開發者

2021-07-24 10:19:14

AI 數據克隆

2025-02-06 14:28:16

2025-07-22 10:22:02

2025-10-17 09:17:09

2025-08-29 14:36:56

模型AI開源

2023-09-08 13:12:00

數據訓練

2024-11-25 12:50:14

2025-02-08 09:30:00

2018-11-21 14:54:56

2024-11-07 15:40:00

2025-02-07 08:33:02

2025-01-08 13:08:55

2025-01-23 14:53:15

2025-07-18 09:33:26

2025-03-18 08:58:13

2024-09-24 11:01:03

2024-10-12 13:51:22

點贊
收藏

51CTO技術棧公眾號

欧美在线观看视频| 欧美肥妇毛茸茸| 日韩三级成人av网| 美女免费免费看网站| 一本一本久久| 欧美国产第一页| 波多一区二区| 中文字幕免费国产精品| 日韩一级特黄毛片| www.成人影院| k8久久久一区二区三区| 69av一区二区三区| 国产制服91一区二区三区制服| 国产精品一二三区视频| 一区二区三区短视频| 久久精品欧美一区二区三区不卡| 中文字幕在线亚洲精品| 欧美人妖视频| 国产a精品视频| 久久久人人爽| 另类一区二区三区| 欧美日韩一区二区三区 | 粉嫩精品导航导航| 国产成人看片| 幼a在线观看| 欧美日韩黑人| 欧美人妖巨大在线| 无码人妻丰满熟妇区毛片18| 男人和女人做事情在线视频网站免费观看| 久久久蜜臀国产一区二区| 国产精品香蕉国产| 日本福利视频| 国产丝袜美腿一区二区三区| 一区二区在线免费观看| 国产中文字幕视频在线观看| 亚洲第一黄网| 久久久久免费精品国产| 国产精品蜜月aⅴ在线| 色一区在线观看| 日韩.欧美.亚洲| 精品国产乱码久久久久久蜜坠欲下 | 精品免费国产一区二区三区四区| 黄色三级高清在线播放| 成人小视频在线| 日韩中文字幕三区| 91麻豆免费视频| 欧美黄色视屏| www.午夜精品| 国产精品99久久免费| 成人h视频在线观看| 午夜片欧美伦| 高清不卡日本v二区在线| 男人的天堂亚洲在线| 欧美在线一二三区| 视频精品一区二区三区| 欧美精品一区二区蜜臀亚洲| 精品三级在线| 日韩av第一页| 国产精品久久久久久久久免费桃花| 在线看的av| 日韩二区三区在线| 国产精品极品在线观看| 国产精品加勒比| 国产丝袜欧美中文另类| 欧美bbbxxxxx| 国产精品99久久久久久人| 亚洲激情播播| 国产成a人亚洲精v品在线观看| 欧美日韩高清一区二区三区| 成人影院www在线观看| 欧美一级xxx| 亚洲二区免费| 天天影视久久综合| 国产精品一区二区三区久久| 中文字幕一区二区三区不卡 | 一区二区三区 日韩| 久久亚洲精品国产亚洲老地址| 中文亚洲免费| 尤物yw193can在线观看| 欧美性色黄大片人与善| 欧美剧在线免费观看网站| 在线中文一区| 日本福利小视频| 国外色69视频在线观看| 亚洲美女免费视频| 99久久www免费| 亚洲热app| 国产精品久久久对白| 国产欧美精品一区二区色综合朱莉 | 精品视频二区| 国产美女直播视频一区| 成人av片在线观看| 久久综合亚洲| 婷婷婷国产在线视频| 免费久久99精品国产自| 亚洲国语精品自产拍在线观看| 久久99精品久久只有精品| 亚洲男人av| 色偷偷亚洲女人天堂观看欧| 日本91av在线播放| 黄色精品一区二区| 精品一区二区三区免费播放| www国产精品| 午夜av在线免费观看 | 国产色91在线| 亚洲精品国产日韩| 精品裸体bbb| av在线资源网| 艹b视频在线观看| 亚洲最大的av网站| 俺也去精品视频在线观看| 一级做a爱片久久| 最新国产拍偷乱拍精品 | 国内精品久久久久影院优| 亚洲国产一区二区三区| 国产a区久久久| 亚洲精品裸体| 亚洲免费观看高清完整版在线观| 91福利在线尤物| 欧美女优在线| 一道本视频在线观看| 日本在线视频www色| 亚洲一区中文字幕| 国内精品一区二区三区四区| 欧美三级日韩在线| 国产精品另类一区| 蜜臀av性久久久久蜜臀aⅴ流畅 | 成人性教育视频在线观看| 欧美人与性动交a欧美精品| 亚洲福利视频网站| 日韩一级免费一区| 欧美日韩高清一区二区不卡| 国产日韩精品一区| 91免费观看国产| 日韩精品亚洲一区二区三区免费| 精品国内自产拍在线观看视频 | 久久女同互慰一区二区三区| 蜜臂av日日欢夜夜爽一区| 婷婷国产精品| 羞羞答答一区二区| 国产亚洲电影| 99久久婷婷国产综合精品电影√| 欧美亚洲国产日韩| 成人一区而且| 亚洲精品1区2区| 日本怡春院一区二区| 国产成人在线免费观看| 蜜桃精品在线观看| 成人国产视频在线观看| av色综合久久天堂av综合| 国产做a爰片久久毛片| 国产成a人亚洲| 国产精品久久久久久一区二区三区| 成人av免费观看| 亚洲主播在线| 久久久99精品免费观看| 国产精品女上位| 欧美性jizz18性欧美| 亚洲精品自拍第一页| 在线一区二区观看| 亚洲成人a级网| 91大神福利视频在线| 精品日本一区二区| 欧美亚洲视频一区| 美女xx视频| 日本美女在线中文版| 天堂久久午夜av| 精品理论电影在线| 国产欧美成人| 国产精品国产三级国产专播品爱网| 亚洲日本欧美天堂| 3atv在线一区二区三区| 国产网站欧美日韩免费精品在线观看| 日韩在线观看av| 久久视频免费观看| 国产在线精品一区二区中文| 久色视频在线播放| 日本高清成人vr专区| 欧美日日夜夜| 亚洲成人三区| 久久女同精品一区二区| 欧美另类变人与禽xxxxx| 久久人人爽人人| 99热一区二区三区| 青青影院在线观看| 久久电影院7| 国产精品萝li| 欧美精品亚州精品| 美脚丝袜一区二区三区在线观看| 99色精品视频| 成人私拍视频| 国产九九精品| 色菇凉天天综合网| 2019国产精品自在线拍国产不卡| 国产精品久久久91| 日本在线观看a| 精品国产乱码久久久久久樱花| 精品一区二区三区在线播放视频| 天天综合日日夜夜精品| 久久亚洲国产精品|