国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<font id="va35n"></font>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

s1-32B 模型：超越 o1-preview，一起探索其原因

發(fā)布于 2025-2-14 13:50

瀏覽

0收藏

原文鏈接：????https://arxiv.org/abs/2501.19393??

??代碼鏈接：??https://github.com/simplescaling/s1???

Test-time scaling是一種語言建模方法，它利用額外的測試時計算資源來提升性能，OpenAI的o1模型近期也證實了這一方法的有效性。本文旨在探尋實現(xiàn)Test-time scaling以及強(qiáng)大推理性能的最簡途徑。

主要貢獻(xiàn)

精心策劃小型數(shù)據(jù)集s1K：該數(shù)據(jù)集包含1000個問題，并配有推理過程，其構(gòu)建基于難度、多樣性和質(zhì)量這三個標(biāo)準(zhǔn)，且通過消融實驗進(jìn)行了驗證。
開發(fā)預(yù)算強(qiáng)制策略：通過強(qiáng)行終止模型的思考過程，或在模型試圖結(jié)束時多次添加“Wait”來延長生成過程，以此控制測試時間計算。這一策略能促使模型復(fù)查答案，糾正推理過程中的錯誤步驟。

在s1K數(shù)據(jù)集上對Qwen2.532B-Instruct語言模型進(jìn)行監(jiān)督微調(diào)，并應(yīng)用預(yù)算強(qiáng)制策略后，我們的模型s1-32B在競賽數(shù)學(xué)問題（MATH和AIME24）上的表現(xiàn)，比o1-preview高出27%。

推理數(shù)據(jù)管理以創(chuàng)建s1K

初始收集59K樣本

依據(jù)三個指導(dǎo)原則，從16個不同來源收集了最初的59,029個問題：

質(zhì)量：數(shù)據(jù)集需保證高質(zhì)量，通過檢查樣本，剔除格式不佳等有問題的數(shù)據(jù)集。
難點：數(shù)據(jù)集應(yīng)具備挑戰(zhàn)性，解答問題需要大量的推理工作。
多元化：數(shù)據(jù)集應(yīng)涵蓋不同領(lǐng)域，以覆蓋各類推理任務(wù)。

數(shù)據(jù)來源包括NuminaMATH、AIME問題、OlympicArena、AGIEval等現(xiàn)有數(shù)據(jù)集，同時還創(chuàng)建了兩個用于定量推理的新數(shù)據(jù)集：

s1-prob：包含斯坦福大學(xué)統(tǒng)計系博士資格考試概率部分的182道題（??https://statistics.stanford.edu??），并附有涵蓋復(fù)雜證明過程的手寫答案。
s1-teasers：由23個常用于量化交易職位面試的腦筋急轉(zhuǎn)彎組成。每個樣本包含問題及答案，均取自PuzzledQuant（??https://www.puzzledquant.com/??）。

針對每個問題，利用Google Gemini Flash Thinking API生成推理過程和解決方案，并提取其推理過程和響應(yīng)，最終得到59K個由問題、生成的推理過程和生成的解決方案組成的三元組。

最終選擇1K樣本

質(zhì)量：首先剔除在API調(diào)用過程中出現(xiàn)錯誤的問題，數(shù)據(jù)集樣本數(shù)量減少至54,116個。接著，通過檢查是否存在格式問題的字符串模式（如ASCII藝術(shù)圖、不存在的圖像引用或不一致的問題編號等），過濾掉低質(zhì)量的示例，數(shù)據(jù)集進(jìn)一步縮減至51,581個。從這部分?jǐn)?shù)據(jù)中，挑選出384個被認(rèn)為高質(zhì)量且無需進(jìn)一步篩選的樣本作為最終1000個樣本的一部分。
難點：在每個問題上評估Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct兩個模型，由Claude 3.5 Sonnet將模型的每次嘗試與參考解決方案對比，評估正確性?；诟y的問題需要更多思考標(biāo)記的假設(shè)，使用Qwen2.5分詞器測量每個推理軌跡的標(biāo)記長度來衡量問題難度。剔除Qwen2.5-7B-Instruct或Qwen2.5-32B-Instruct能正確解答的問題，此時樣本數(shù)量降至24,496個。
多元化：運(yùn)用Claude 3.5 Sonnet，依據(jù)美國數(shù)學(xué)學(xué)會的數(shù)學(xué)學(xué)科分類（MSC）系統(tǒng)（如幾何、動態(tài)系統(tǒng)、實分析等），將每個問題分類到特定領(lǐng)域。從24,496個問題中選擇最終樣本時，先隨機(jī)均勻選擇一個領(lǐng)域，然后根據(jù)傾向于更長推理軌跡的分布從該領(lǐng)域抽取一個問題。重復(fù)此過程，直至收集到1000個樣本。經(jīng)過這三個階段的篩選，最終得到的數(shù)據(jù)集涵蓋了50個不同領(lǐng)域。

測試時縮放

測試時縮放方法可分為：

順序計算：后續(xù)計算依賴于前面的計算結(jié)果（例如較長的推理軌跡）。
并行計算：計算過程相互獨(dú)立（例如多數(shù)投票）。

本文聚焦于順序擴(kuò)展，因為作者直觀認(rèn)為這種方式擴(kuò)展性更佳，后續(xù)計算可基于中間結(jié)果進(jìn)行，有助于更深入的推理和迭代優(yōu)化。

預(yù)算強(qiáng)制

提出一種簡單的解碼時間干預(yù)方法，在測試時強(qiáng)制設(shè)定最大和/或最小數(shù)量的思維標(biāo)記：

為強(qiáng)制設(shè)定最大令牌數(shù)，只需附加思維結(jié)束標(biāo)記分隔符和“Final Answer:”，使模型提前退出思考階段，給出當(dāng)前最佳答案。
為強(qiáng)制設(shè)定最小令牌數(shù)，禁止生成思維結(jié)束標(biāo)記分隔符，并可選擇在模型當(dāng)前推理軌跡后附加字符串“Wait”，鼓勵模型對當(dāng)前生成結(jié)果進(jìn)行反思。

以下圖為例，展示了該方法如何引導(dǎo)模型得出更好的答案。模型原本在“...is 2.”處試圖停止，但我們禁止了思維結(jié)束標(biāo)記分隔符，改為附加“Wait”，促使s1-32B自行糾正答案。

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

基線

預(yù)算強(qiáng)制的基準(zhǔn)對比方法包括：

條件長度控制方法：依靠在提示中告知模型應(yīng)生成的長度，再按粒度分為：

Token條件控制：在提示中指定思維標(biāo)記的上限。

步進(jìn)條件控制：指定思考步驟的上限，每個步驟約100個標(biāo)記。

類條件控制：編寫兩個通用提示，讓模型進(jìn)行短期或長期思考。

抑制采樣：不斷采樣，直至生成結(jié)果符合預(yù)先設(shè)定的計算預(yù)算。該方法根據(jù)生成結(jié)果的長度獲取后驗響應(yīng)。

指標(biāo)

測量了三個指標(biāo)：

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

結(jié)果

設(shè)置

使用s1K數(shù)據(jù)集對Qwen2.5-32B-Instruct進(jìn)行監(jiān)督微調(diào)，得到模型s1-32B。

性能

測試時縮放：下圖展示了s1-32B在預(yù)算強(qiáng)制策略下，隨著測試時間計算量增加的性能變化。從圖中可以看出，使用預(yù)算強(qiáng)制技術(shù)和更多測試時間計算，能提升AIME24的性能，但在六倍計算量時性能趨于平緩。通過多數(shù)投票在基礎(chǔ)模型上擴(kuò)展測試時間計算，其性能無法趕上s1-32B，這驗證了順序擴(kuò)展比并行擴(kuò)展更有效的觀點。

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

樣品效率：下圖和表格將s1-32B與其他模型進(jìn)行了對比。結(jié)果顯示，s1-32B是樣本效率最高的開放數(shù)據(jù)推理模型。盡管s1-32B僅在額外的1000個樣本上進(jìn)行訓(xùn)練，但其性能明顯優(yōu)于基礎(chǔ)模型Qwen2.5-32B-Instruct。同時發(fā)布的r1-32B性能比s1-32B更強(qiáng)，不過它是在多800倍推理樣本上訓(xùn)練得到的。

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

討論

進(jìn)一步Test-time scaling的限制

結(jié)果表明，預(yù)算強(qiáng)制策略可通過外推測試時間計算提升性能，如將AIME24的性能從50%提高到57%。然而，在進(jìn)一步擴(kuò)展時存在兩個關(guān)鍵限制：一是性能最終會趨于平緩；二是底層語言模型的上下文窗口會對其形成約束。盡管存在這些限制，但測試時間擴(kuò)展在廣泛的精度范圍內(nèi)仍有效，部分原因是縮減測試時計算的行為具有可預(yù)測性，不受這些限制的影響。若要繼續(xù)進(jìn)行Test-time scaling，需要能進(jìn)一步推斷測試時計算的新方法。

并行擴(kuò)展作為解決方案

并行擴(kuò)展為順序擴(kuò)展的限制提供了一種解決思路。我們通過兩種方法增強(qiáng)順序擴(kuò)展模型：

多數(shù)表決：生成個解決方案后，選擇出現(xiàn)頻率最高的作為最終答案。
通過REBASE進(jìn)行樹搜索：使用REBASE流程獎勵模型（從LLaMA-34B初始化，并在合成流程獎勵建模數(shù)據(jù)集上進(jìn)一步微調(diào)），然后通過多數(shù)投票匯總REBASE生成的解決方案。

如下圖所示，在這種場景下，使用REBASE增強(qiáng)模型的擴(kuò)展性優(yōu)于多數(shù)投票，甚至比順序擴(kuò)展效果更好。不過，REBASE在每個步驟都需要為獎勵模型進(jìn)行額外的前向傳遞，會增加一定的計算開銷。

s1-32B 模型：超越 o1-preview，一起探索其原因-AI.x社區(qū)

本文轉(zhuǎn)載自??柏企科技圈??，作者：柏企 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

一起聊聊圖檢索增強(qiáng)生成

sbf_2000 ? 5265瀏覽 ? 0回復(fù)
Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！

老蛀蟲 ? 3713瀏覽 ? 0回復(fù)
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 4855瀏覽 ? 0回復(fù)
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 4507瀏覽 ? 0回復(fù)
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 9507瀏覽 ? 0回復(fù)
推進(jìn)醫(yī)療人工智能：評估 OpenAI 的 o1-Preview 模型并優(yōu)化推理策略

Halo咯咯 ? 4102瀏覽 ? 0回復(fù)
我們一起聊聊分類模型：層次聚類

寶寶數(shù)模AI ? 3560瀏覽 ? 0回復(fù)
微軟：GPT-4o-mini只有8B，o1-mini僅100B

PaperAgent ? 3547瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測試中超越了 GPT-4o

Halo咯咯 ? 1.5w瀏覽 ? 0回復(fù)
李飛飛+50美元+蒸餾 S1=? DeepSeekR1

CourseAI ? 3856瀏覽 ? 0回復(fù)
8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 3491瀏覽 ? 0回復(fù)
從推理到編程，詳細(xì)比較DeepSeek 32B、70B、R1實踐性能

小虎哦哦 ? 1.8w瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 4184瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 5970瀏覽 ? 0回復(fù)
我們一起聊聊基于1DCNN-Informer+MATT融合的故障診斷模型

Tang_Lan ? 3430瀏覽 ? 0回復(fù)
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

sbf_2000 ? 3125瀏覽 ? 0回復(fù)
我們一起聊聊視覺語言模型

丟翅膀的魚 ? 3809瀏覽 ? 0回復(fù)
國產(chǎn)大模型崛起！智譜發(fā)布GLM-4-32B-0414系列模型，以32B模型參數(shù)比肩GPT-4o和DeepSeek V3/R1

AIGCStudio ? 4500瀏覽 ? 0回復(fù)
我們一起聊聊基于1DCNN-Informer+MATT融合的故障診斷模型

Tang_Lan ? 2633瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴(kuò)散模型會成為語言模型的未來？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門推薦

字節(jié)跳動發(fā)布Vidi2，視頻理解能力超越Gemini3 pro 0回復(fù)

告別官方限制！我是如何使用Claude+CodeX協(xié)同工作流“榨干”Claude和CodeX的價值 0回復(fù)

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

剛剛！黑森林實驗室發(fā)布FLUX.2，開源AI圖像生成的「核彈級」突破！吊打Midjourney，本地可部署。 0回復(fù)

Palantir 創(chuàng)始工程師深度分享：FDE 模式是 Agent 時代的 PMF 新范式 0回復(fù)

上一篇： 2W8000字深度剖析25種RAG變體：全網(wǎng)最全沒有之一

下一篇： KIMI 月之暗面提出（MoBA）大模型長文本處理新解法：塊注意力混合

社區(qū)精華內(nèi)容

目錄

黄网站色欧美视频| 免费看国产黄色片| 三级黄视频在线观看| 91精品国产乱码久久久竹菊| 亚洲欧美一区二区视频| 国产精品欧美激情| 日韩三级影院| 粉嫩高潮美女一区二区三区| 中文字幕欧美专区| 亚洲精品.com| 久久精品久久精品亚洲人| 涩涩涩久久久成人精品| 久久精品电影一区二区| www.久久东京| 久久亚洲捆绑美女| 日韩网址在线观看| 91在线精品一区二区三区| 乱熟女高潮一区二区在线| 免费人成在线不卡| 天堂精品视频| 日韩av中字| 欧美日韩一区二区三区四区| 免费h片在线观看| www.欧美色图| 日本丰满大乳奶| 美女久久一区| 成人在线激情视频| 日本精品视频| 亚洲午夜久久久影院| av在线二区| 久久99偷拍| 久久伊人精品一区二区三区| 678在线观看视频| 色婷婷精品大在线视频 | 97在线观看播放| 91一区一区三区| 免费黄色日本网站| 成人福利视频网站| 欧美v在线观看| 精品制服美女丁香| 欧美日韩精品在线一区二区 | 国产精品二线| 欧美丝袜丝交足nylons图片| 有色激情视频免费在线| 午夜av一区二区| 黄色片在线免费看| 欧美一区二区高清| 美女精品视频| 日韩麻豆第一页| 中文字幕久久精品一区二区| 国产精品电影一区| 欧美先锋影音| 欧美日韩中文字幕在线播放 | 精品一区久久| 国产精品一区二区在线观看网站 | 日本最新在线视频| 精品区一区二区| 91精品国产一区二区在线观看| 国产精品视频1区| 久久综合999| 免费一区二区三区在线观看| 亚洲欧美国产77777| 成人黄色影视| 日韩精品免费电影| 午夜精品毛片| 精品少妇无遮挡毛片| 亚洲天堂视频在线观看| 国产精品福利网| 亚洲激情成人| 久久r热视频| 九色视频网站在线观看| 欧洲黄色一级视频| 欧美一级大片视频| 亚洲精品99久久久久| 国产精品美日韩| 久久国产精品99国产| 国产伦精品一区二区三区视频 | 天堂av在线一区| 国产一区二区三区影视| 成人免费一区二区三区视频网站| 熟妇熟女乱妇乱女网站| 欧美不卡在线视频| 亚洲精品日产精品乱码不卡| 久久久久久久片| 欧美中文在线免费| 亚洲一区二区在线播放相泽 | 99久久er热在这里只有精品66| а√在线中文在线新版| 欧美日韩亚洲一区二区三区四区| 欧美专区在线观看一区| 亚洲字幕久久| free性m.freesex欧美| 伊人久久大香线蕉综合75| 麻豆乱码国产一区二区三区| 亚洲毛片av在线| 1024在线播放| 久久久久久久久久国产精品| 黄色国产网站在线播放| 亚洲激情在线视频| 久久精品人人爽人人爽| av电影一区| 国产美女精品视频免费观看| 成人性生交大片免费看视频在线 | 色综合久久久久综合体| 国产精品二区影院| 在线视频观看国产| 日韩精品视频在线| www.激情成人| av日韩中文| 国产精品亚洲第一区| 日本久久成人网| 国产欧美日韩中文字幕| 99精品视频在线观看播放| 国产精品精品久久久| 91玉足脚交白嫩脚丫在线播放| 男人的天堂网av| 国产欧美亚洲日本| 在线中文字幕一区| 国产精品一区二区美女视频免费看 | 国产人与zoxxxx另类91| av在线免费观看网站| 亚洲精品视频区| 免费av高清| 女生裸体视频网站免费观看| 搡女人真爽免费午夜网站| 亚洲欧洲日本国产| 亚洲a∨一区二区三区| 一区二区高清免费观看影视大全 | 免费在线看黄色片| 国产一区二区三区在线观看免费| 日韩中文一区| 99国产一区二区三精品乱码| 麻豆av在线| 国模吧一区二区三区| 久久色.com| 日韩福利视频导航| 成人动漫视频| 日韩成人18| 麻豆视频在线观看免费| 免费一级淫片| 国产91在线亚洲| 久久综合精品一区| 国产精品99久久久久久www | 欧美激情一级二级| 亚洲国产97在线精品一区| 色综合久久中文综合久久97| 久久综合久久久久88| 免费美女久久99| 99精品欧美| 国产精品国内免费一区二区三区| 视频精品一区| 欧洲大片精品免费永久看nba| 蜜桃麻豆av在线| 羞羞的网站在线观看| av资源种子在线观看| 青青九九免费视频在线| 污视频网站在线| 牛牛影视精品影视| 日韩精品视频在线观看一区二区三区| 91福利免费在线| 狠狠干在线视频| 香蕉国产在线| 99热国产在线中文| 日韩电影免费观| 中文字幕系列一区| 日韩在线观看不卡| y111111国产精品久久久| 亚洲精品中文字幕99999| 亚洲资源网站| 国产一区日韩一区| 国内精品国产三级国产a久久| 91在线观看免费视频| 亚洲丝袜制服诱惑| 欧美在线啊v一区| 国产亚洲精品成人av久久ww | 手机福利小视频在线播放| eeuss影院在线播放| 日韩电影免费看| 4438全国亚洲精品观看视频| 精品中文字幕一区二区三区av| 欧美日韩在线网站| 久久精品国产99| 亚洲欧美成人一区二区三区| 色综合久久99| 九九精品视频在线观看| 日韩日本欧美亚洲| 日韩精品一区二区三区四区视频| 中文av一区二区| 三级一区在线视频先锋| 欧美日韩调教| 色在线免费观看| 亚洲成人福利在线观看| 免费一级特黄毛片| 国产一区二区三区四区hd| 久久国产精品久久久久| 免费在线国产精品| 久久久久免费精品| 国模冰冰炮一区二区| 另类的小说在线视频另类成人小视频在线 | 黄色小网站91|