国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

成本不到8千美元!新浪微博1.5B小模型超越近萬億參數模型

人工智能 新聞
VibeThinker-1.5B證明了在邏輯推理這一核心認知領域,精巧的算法設計可以超越蠻力的參數堆砌。

一個僅有15億參數、訓練成本不足8000美元的小模型,在頂級數學競賽基準上擊敗了參數量是其數百倍的,近萬億參數的DeepSeek-R1(6710億參數)。甚至媲美Gemini 2.5 flash和claude Opus 4。

令人意想不到的是,這是新浪微博剛剛發布并開源的VibeThinker-1.5B模型。

這個僅有15億參數的小家伙,證明了智慧的算法設計,或許比單純的參數堆砌更具力量。

核心是一種先發散再收斂的智慧

VibeThinker-1.5B的強大,并非源于模型架構的革新,而是其背后一套名為頻譜到信號原則(Spectrum-to-Signal Principle, SSP)的訓練哲學。

傳統的模型訓練,尤其是在微調階段,目標非常直接:讓模型在一次嘗試中給出正確答案的概率(即Pass@1)最大化。監督微調(SFT)和強化學習(RL)兩個階段,都圍繞著這個單一目標進行優化。

SSP原則認為這種做法存在根本性的局限。

它就像一個嚴厲的老師,只獎勵那個唯一正確的標準答案,從而扼殺了學生探索其他可能解法的創造力。這種訓練方式,讓模型變得思維僵化,過早地收斂到一個狹窄的解題路徑上,從而限制了其推理能力的上限。

VibeThinker-1.5B反其道而行之。它將SFT和RL兩個階段的目標徹底解耦,賦予它們截然不同又相輔相成的使命。

第一階段,監督微調(SFT),被定義為頻譜階段。

它的目標不再是追求單次回答的準確率,而是生成一個豐富多樣的、包含各種合理解題思路的解決方案頻譜。通俗地說,就是鼓勵模型腦洞大開,針對一個問題,想出盡可能多的、看起來都有道理的解法。

這個階段的評價指標不再是Pass@1,而是Pass@K。這個指標衡量的是,在模型獨立生成的K個答案中,只要有一個是正確的,就算通過。高Pass@K意味著模型擁有廣闊的思維空間和豐富的解題路徑儲備,為后續的優化提供了肥沃的土壤。

這就像一個頂級的創意團隊在進行頭腦風暴,第一步不是評判哪個點子最好,而是鼓勵所有人盡可能多地提出各種想法,無論多么天馬行空。想法的數量和多樣性(頻譜),決定了最終能產出偉大創意的上限。

第二階段,強化學習(RL),被定義為信號階段。

當模型通過SFT階段學會了發散思維后,RL階段的任務就變成了收斂聚焦。它像一個經驗豐富的編輯或決策者,從SFT生成的廣闊頻譜中,識別出最正確、最高效的那個信號,并加以放大。

通過獎勵機制,RL引導模型學會在眾多可能性中,提高生成最佳答案的概率。由于SFT階段已經提供了足夠豐富的候選方案,RL階段的優化就變得事半功倍,它不再需要從零開始探索,而是在一個高質量的候選池中進行選擇和強化。

SSP原則的精髓在于,它認識到,先優化多樣性(Pass@K),再優化準確性(Pass@1),比從頭到尾只優化準確性,能達到更高的性能天花板。一個思維開闊、能舉一反三的模型,最終找到正確答案的能力,遠勝于一個只會走華容道的死板模型。

輸出多樣性是模型魯棒性和創造力的核心。

當模型能從多個角度、多種路徑思考問題時,它就不容易陷入局部最優解,也更有可能在面對新穎、復雜的問題時,找到突破性的解決方案。SSP框架,正是將這一認知系統性地融入了模型訓練的全過程。

模型的訓練過程堪稱藝術

理論的優雅需要精妙的實踐來落地。VibeThinker-1.5B將SSP原則貫徹到訓練的每一個細節中,其具體方法分為多樣性探索蒸餾和最大熵引導策略優化兩個核心步驟。

第一步:用蒸餾法萃取多樣性精華

為了在SFT(監督微調)階段打造出最廣闊的解決方案頻譜,團隊設計了一套巧妙的兩階段多樣性探索蒸餾流程。

首先是領域感知多樣性探測。

他們沒有將所有知識一鍋燉,而是認識到不同領域需要不同的多樣性思維。例如,在數學領域,他們將其細分為代數、幾何、微積分、統計等N個子領域。

然后,他們利用一個能力強大的大語言模型,為每個子領域自動構建專門的測試題集。在SFT的訓練過程中,模型每隔一段時間(比如每k步)就會被保存一個檢查點(checkpoint)。這些檢查點會被帶到各個子領域的考場上,用Pass@K指標進行評估。

最終,在每個子領域中,那個Pass@K分數最高的檢查點,就被加冕為該領域的多樣性專家模型。比如,M*代數 是最擅長用多種方法解決代數問題的模型,而 M*幾何 則是幾何領域的發散思維冠軍。

這個過程,就像是從成千上萬的實習生中,為每個部門挑選出最具創新潛力的那一個。

接下來是專家模型融合。

選出了各個領域的專家后,需要將它們的才華集于一身,打造一個全能的、多樣性最大化的SFT模型。這里使用了一種名為模型合并(Model Merging)的技術。

簡單來說,就是將這些專家模型的參數進行加權平均。公式可以表示為:

權重wi的總和為1,保證了融合后的模型參數規模不變。在VibeThinker-1.5B的實現中,團隊采用了最簡單的等權重方案(wi = 1/N),意味著每個領域的多樣性能力都被平等地注入到最終的SFT模型中。

這個融合了所有專家之長的模型 MSFT Merge,不僅在多樣性指標Pass@K上達到了頂尖水平,其單次準確率Pass@1也同樣出色。

這說明,追求思維的廣度,并不會削弱其深度。

恰恰相反,一個更廣闊的認知頻譜,似乎反而強化了通往最正確答案的那條路徑。這個強大的SFT模型,為下一階段的RL優化,奠定了無與倫比的堅實基礎。

第二步:用熵來引導模型在學習甜點區探索

進入RL(強化學習)信號階段后,團隊面臨一個新的問題:如何最高效地利用訓練數據?

傳統的RLHF(人類反饋強化學習)通常使用靜態數據集,這對于一個能力不斷進化的模型來說,效率很低。模型已經完全掌握的問題,再反復練習是浪費時間;而遠超其當前能力的問題,則會讓模型感到挫敗,難以學習。

這里,VibeThinker-1.5B引入了最大熵引導策略優化(MaxEnt-Guided Policy Optimization, MGPO)框架。

這個名字聽起來復雜,但其核心思想非常符合直覺,源于信息論。它認為,一個問題對模型訓練的價值最大化,是在模型對這個問題最不確定的時候。

想象一下一個學生。對于1+1=2,他每次都答對,再練一百遍也學不到新東西。對于黎曼猜想,他完全不懂,再看一百遍也只是徒勞。他學得最快的地方,是那些他感覺自己好像會,但又沒完全會,做起來時對時錯的題目。

這個時對時錯的狀態,在信息論中,就是熵最大的狀態。

對于一個問題,模型的回答只有正確與不正確兩種結果。當模型在多次嘗試后,答對的概率pc(q)恰好是50%時,其不確定性達到頂峰,熵最大。這個點,就是模型的學習甜點區(learning sweet spot),或者說關鍵的學習前沿。

MGPO框架的核心,就是動態地識別出這些讓模型最糾結的問題,并引導模型將學習資源優先投入其中。

它通過一個熵偏差正則化的加權方案來實現。這個方案會計算模型當前表現(答對概率pc(q))與理想的最大熵狀態(p0 = 0.5)之間的距離(使用KL散度衡量)。

距離越遠(即模型對問題要么掌握得太好,要么完全不會),分配的權重就越低;距離越近(模型表現接近50%的搖擺狀態),分配的權重就越高。

模型會自動地將注意力集中在那些它最有可能取得突破的模糊地帶。

通過這種方式,MGPO確保了每一份計算資源都花在了刀刃上,極大地提升了學習效率,讓模型能夠以最快的速度,從SFT階段提供的廣闊頻譜中,鎖定并放大那個最強的信號。

性能表現足以挑戰行業共識

VibeThinker-1.5B在一系列涵蓋數學、編碼和知識領域的權威基準測試中,交出了一份顛覆性的答卷。

評估的考場包括:

  • 數學:MATH-500、極具挑戰性的哈佛麻省理工數學競賽HMMT 2025、美國數學邀請賽AIME 2024和AIME 2025。
  • 編碼:LiveCodeBench V5和V6,評估通用編程能力。
  • 知識:GPQA-Diamond,一個包含生物、物理、化學博士級別問題的研究生水平測試。

VibeThinker-1.5B與參數量在30億以下的同級別選手進行比較。

表格中的數據清晰地展示了VibeThinker-1.5B與其基礎模型(Qwen2.5-Math-1.5B)相比,實現了脫胎換骨的進化。

在AIME25上,分數從4.3飆升至74.4;HMMT25從0.6提升到50.4;LiveCodeBench V5更是從0分突破至55.9

更重要的是,VibeThinker-1.5B不僅超越了同參數級的對手,甚至碾壓了更大一些的模型。

它在AIME25上的分數(74.4)是30億參數SmolLM(36.7)的兩倍多。在HMMT25(50.4 vs 26.0)和LiveCodeBench V5(55.9 vs 27.6)上,優勢同樣巨大。這毫無疑問地確立了它在30億參數以下級別中的王者地位。

與大型推理模型,甚至是行業巨頭的專有模型正面交鋒。這些對手的參數規模是VibeThinker-1.5B的10倍到數百倍。

結果令人震驚。

在AIME25這個極具挑戰性的數學基準上,15億參數的VibeThinker-1.5B(74.4分)擊敗了6710億參數的DeepSeek R1(70.0分),并且與OpenAI的o3-mini-Medium(74.8分)、MiniMax-M1(74.6分)幾乎打平。

在HMMT25上,它的表現(50.4分)同樣超越了DeepSeek R1(41.7分)。

這一結果直接撼動了推理能力與參數規模強相關的行業基石。

它雄辯地證明,通過精巧的算法設計和訓練策略,一個小規模模型完全有潛力在復雜的邏輯推理任務上,達到甚至超越那些體量龐大數百倍的巨型模型。

在編碼任務上,VibeThinker-1.5B與頂級大模型的差距略大一些,這主要歸因于其基礎模型更側重于數學數據。

而在GPQA這樣的廣域知識問答上,差距則更為明顯。這表明,小參數模型在存儲和處理海量、百科全書式的通用知識方面,可能確實存在固有的物理限制。

為了進一步凸顯其在推理領域的專注與強大,VibeThinker-1.5B還與一些頂級通用大模型進行了比較,如Kimi K2、Deepseek V3、GPT-4.1等。

這些模型參數規模動輒數千億乃至萬億,雖然也經過了數學和編碼數據的訓練,但其設計目標是通用對話,而非專門的鏈式思維(CoT)推理。

在數學基準上,它以巨大的優勢超過了所有這些萬億參數級別的通用模型。這有力地說明,對于需要深度邏輯推理的任務,專門優化的小而美模型,其效能遠非通用大而全模型能比。

成本與可信度是最后的拼圖

VibeThinker-1.5B的成就不僅在于性能,更在于其極致的成本效益。

整個后訓練過程(包括SFT和RL階段),在NVIDIA H800 GPU上總共只花費了約3900個GPU小時。按照當時的市場租賃價格,總計算成本不到8000美元。

用不到8000美元的成本,達到了需要花費30萬甚至50萬美元才能企及的性能水平,成本效益比達到了驚人的30到60倍。

這種成本上的巨大優勢,意味著強大的AI推理能力不再是少數巨頭的專利。它讓更多的中小型公司、研究機構和大學,都有可能參與到前沿AI的開發中來,極大地促進了AI研究的民主化。

同時,在推理部署成本上,15億參數的模型可以輕松運行在手機、汽車等邊緣設備上,其服務成本相較于巨型模型降低了20到70倍,為AI應用的廣泛落地鋪平了道路。

當然,對于任何一個表現驚艷的模型,都必須回答一個關鍵問題:數據是否被污染?模型是否只是背題,而非真正學會了解題?

VibeThinker-1.5B團隊對此采取了嚴格的數據去污染措施,通過10-gram匹配等方法,確保訓練數據與評估測試集之間不存在語義重疊。

更有力的證據來自時間線。

VibeThinker-1.5B的基礎模型發布于2024年9月。而它表現出色的AIME25和HMMT25基準測試,直到2025年才公開發布。這意味著,這些測試題根本不可能出現在其基礎模型的訓練數據中。

此外,其基礎模型在編碼任務上得分均為0,而VibeThinker-1.5B通過后訓練將分數提升至50分以上。這些從無到有的能力躍升,也強有力地證明了其性能的提升源于創新的訓練方法,而非數據泄露。

VibeThinker-1.5B證明了在邏輯推理這一核心認知領域,精巧的算法設計可以超越蠻力的參數堆砌。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-02-13 09:10:00

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-08-04 08:51:00

2025-07-31 08:45:00

模型AI開源

2025-02-06 08:06:05

2025-07-02 14:39:29

開源模型AI

2025-11-13 09:05:00

2025-01-10 12:58:37

2025-04-15 09:19:00

模型AI數據

2024-01-16 12:10:33

模型數據

2016-03-17 16:00:51

新浪微博用戶模型

2023-02-16 13:48:56

模型論文

2025-04-27 08:54:00

英偉達開源模型

2013-07-10 14:15:38

php新浪微博

2021-02-02 13:00:30

快手參數推薦精排模型

2024-07-16 13:13:26

2025-10-14 09:00:00

2023-12-03 08:49:38

微軟開源

2025-02-11 16:17:42

點贊
收藏

51CTO技術棧公眾號

日本一区视频在线观看免费| 欧美 日韩 国产 一区| 亚洲欧美久久234| 91精品国产一区二区三区动漫| 日韩一级特黄| 日韩欧美一区二区久久婷婷| 四虎精品成人免费网站| 国产精品久久免费看| 国产美女网站在线观看| 蜜臀久久久99精品久久久久久| 91成人免费视频| 天堂美国久久| 国产精自产拍久久久久久| 欧美做受69| 欧美丰满少妇xxxx| 精品国产乱码一区二区三区| 一道本无吗dⅴd在线播放一区| 欧美videosex性欧美黑吊| 欧美日韩不卡一区| 北岛玲一区二区三区| 欧美亚洲不卡| 国产丝袜在线观看视频| 一本久久综合亚洲鲁鲁五月天| 国产www在线观看| 国产精品久久久久久久蜜臀| 色偷偷亚洲第一综合| 亚洲国产成人在线| 日本www.色| 中文字幕一区二区在线观看| 日韩中文字幕a| 中文字幕国产精品一区二区| 97视频在线| 亚洲五月六月丁香激情| 视频福利在线| 欧美日韩另类一区| av在线网址观看| 亚洲电影免费观看高清完整版在线观看 | 中文字幕欧美日韩一区二区| 中文字幕国产亚洲| 澳门av一区二区三区| 中文字幕久久精品| 亚洲综合网狠久久| 国产精品吊钟奶在线| 欧美成人综合| 中文字幕欧美日韩一区二区| 91视频国产资源| 2019中文字幕视频| 色综合久久天天综合网| 男人资源在线播放| 337p日本欧洲亚洲大胆精品 | 中文字幕精品在线不卡| 日韩大片一区二区| 亚洲电影一级黄| 黄网站免费在线播放| 亚洲国产成人精品无码区99| 免费萌白酱国产一区二区三区| 国产精品第七十二页| 国产日韩一区二区三区在线播放| 国产成人精品免费看在线播放| 久久蜜桃香蕉精品一区二区三区| 影音先锋可以看的网站| 91麻豆精品久久久久蜜臀| 深夜视频一区二区| 国产精品久久久久免费a∨| 羞羞答答国产精品www一本| 黄色国产一级视频| 日韩欧美高清在线视频| 自拍一区在线观看| 91国偷自产一区二区三区的观看方式| 激情成人亚洲| 欧美韩国日本在线| 91久久免费观看| 日韩成人在线电影| 成人91免费视频| 91麻豆精品一区二区三区| 中文在线观看视频| 亚洲护士老师的毛茸茸最新章节| 亚洲高清在线一区| 免费黄色片在线观看| 99麻豆久久久国产精品免费优播| 精品伦理一区二区| 亚洲国产成人久久综合一区| 欧美极品在线观看| 中国老女人av| 亚洲高清不卡在线观看| 悠悠资源网亚洲青| 成人国产在线视频| 成人av免费在线播放| 日本高清在线观看wwwww色| 欧美精品福利在线| 精品一区二区国语对白| 欧美69xxxxx| 久久久人成影片一区二区三区观看 | 3d动漫精品啪啪1区2区免费 | 日本午夜精品一区二区| 国产丝袜欧美中文另类| 免费看a在线观看| 国a精品视频大全| 九一久久久久久| 国产精品二线| 亚州欧美日韩中文视频| 国产精品亚洲第一区在线暖暖韩国 | 999国产精品永久免费视频app| 成人黄色大片网站| 欧美日韩电影在线播放| 九色精品国产蝌蚪| 玩弄中年熟妇正在播放| 日韩欧美一二三四区| 国产精品毛片久久| 一本色道久久亚洲综合精品蜜桃| 亚洲人精选亚洲人成在线| 性色一区二区| 六月丁香综合在线视频| 麻豆蜜桃91| 午夜电影一区二区| 久久99国产精品久久99大师| 日韩人妻无码精品久久久不卡| 日韩欧美中文字幕公布| 欧美日韩免费| 亚洲校园欧美国产另类| 国产精品久久久久久久久久新婚| 国产三级欧美三级日产三级99 | 一本一本久久a久久精品综合麻豆| 国产伦理久久久久久妇女| 欧美草草影院在线视频| 国产精品红桃| 你懂的视频在线| 国产美女久久精品| 国产精品不卡一区二区三区| 日韩一级特黄| 成年人视频网站免费| 日韩av在线直播| 欧美 日韩 国产 一区| 欧美污视频网站| 美女福利视频一区| 99re成人精品视频| 国产欧美自拍| 欧美 日韩 激情| 欧美成人合集magnet| 99r国产精品| 一区二区三区视频免费视频观看网站| 无码精品a∨在线观看中文| 在线看日韩欧美| 91碰在线视频| 97久久综合区小说区图片区| 国产视频手机在线播放| 欧美一区二区三区免费视| 亚洲一区国产视频| 欧美一区二区三区久久精品| 欧美另类极品| 日韩中文不卡| 国产亚洲福利一区| 99国内精品久久| 偷拍自拍一区| 天堂a中文在线| 欧美不卡三区| 亚洲欧洲高清在线| 久久一夜天堂av一区二区三区| 日韩一区中文| av线上观看| 99热国产免费| 亚洲精品一区二区三区福利 | 92福利视频午夜1000合集在线观看| 日韩欧美综合在线视频| 亚洲国产日本| 日韩高清不卡| 韩国97影院| 国产精品久久久久av福利动漫| 欧美肥胖老妇做爰| 国产福利视频一区二区三区| 中文字幕一区二区三区中文字幕| 浪潮av在线| 国产精品久久久久久久免费大片 | 精品999日本| 99在线视频影院| 50路60路老熟妇啪啪| 国产成人在线亚洲欧美| 欧美视频在线一区二区三区 | 中文字幕人成乱码在线观看| 91最新在线观看| 国产欧美va欧美va香蕉在线| 精品国产1区二区| 国产精品美女久久久久久2018| 欧美日韩一区二区国产| 99久久伊人| 一级毛片免费看| 无码免费一区二区三区免费播放| 欧美成人在线免费视频| 欧美最猛黑人xxxxx猛交| 不卡电影一区二区三区| 欧美激情第8页| 影视一区二区三区| 性网站在线免费观看| 亚洲黄色成人久久久| 3344国产精品免费看| 91电影在线观看| 国产日本欧洲亚洲| 国产视频一区免费看| 波多野结衣在线一区二区| 男人影院在线观看|