国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

成本不到8千美元!新浪微博1.5B小模型超越近萬億參數模型

人工智能 新聞
VibeThinker-1.5B證明了在邏輯推理這一核心認知領域,精巧的算法設計可以超越蠻力的參數堆砌。

一個僅有15億參數、訓練成本不足8000美元的小模型,在頂級數學競賽基準上擊敗了參數量是其數百倍的,近萬億參數的DeepSeek-R1(6710億參數)。甚至媲美Gemini 2.5 flash和claude Opus 4。

令人意想不到的是,這是新浪微博剛剛發布并開源的VibeThinker-1.5B模型。

這個僅有15億參數的小家伙,證明了智慧的算法設計,或許比單純的參數堆砌更具力量。

核心是一種先發散再收斂的智慧

VibeThinker-1.5B的強大,并非源于模型架構的革新,而是其背后一套名為頻譜到信號原則(Spectrum-to-Signal Principle, SSP)的訓練哲學。

傳統的模型訓練,尤其是在微調階段,目標非常直接:讓模型在一次嘗試中給出正確答案的概率(即Pass@1)最大化。監督微調(SFT)和強化學習(RL)兩個階段,都圍繞著這個單一目標進行優化。

SSP原則認為這種做法存在根本性的局限。

它就像一個嚴厲的老師,只獎勵那個唯一正確的標準答案,從而扼殺了學生探索其他可能解法的創造力。這種訓練方式,讓模型變得思維僵化,過早地收斂到一個狹窄的解題路徑上,從而限制了其推理能力的上限。

VibeThinker-1.5B反其道而行之。它將SFT和RL兩個階段的目標徹底解耦,賦予它們截然不同又相輔相成的使命。

第一階段,監督微調(SFT),被定義為頻譜階段。

它的目標不再是追求單次回答的準確率,而是生成一個豐富多樣的、包含各種合理解題思路的解決方案頻譜。通俗地說,就是鼓勵模型腦洞大開,針對一個問題,想出盡可能多的、看起來都有道理的解法。

這個階段的評價指標不再是Pass@1,而是Pass@K。這個指標衡量的是,在模型獨立生成的K個答案中,只要有一個是正確的,就算通過。高Pass@K意味著模型擁有廣闊的思維空間和豐富的解題路徑儲備,為后續的優化提供了肥沃的土壤。

這就像一個頂級的創意團隊在進行頭腦風暴,第一步不是評判哪個點子最好,而是鼓勵所有人盡可能多地提出各種想法,無論多么天馬行空。想法的數量和多樣性(頻譜),決定了最終能產出偉大創意的上限。

第二階段,強化學習(RL),被定義為信號階段。

當模型通過SFT階段學會了發散思維后,RL階段的任務就變成了收斂聚焦。它像一個經驗豐富的編輯或決策者,從SFT生成的廣闊頻譜中,識別出最正確、最高效的那個信號,并加以放大。

通過獎勵機制,RL引導模型學會在眾多可能性中,提高生成最佳答案的概率。由于SFT階段已經提供了足夠豐富的候選方案,RL階段的優化就變得事半功倍,它不再需要從零開始探索,而是在一個高質量的候選池中進行選擇和強化。

SSP原則的精髓在于,它認識到,先優化多樣性(Pass@K),再優化準確性(Pass@1),比從頭到尾只優化準確性,能達到更高的性能天花板。一個思維開闊、能舉一反三的模型,最終找到正確答案的能力,遠勝于一個只會走華容道的死板模型。

輸出多樣性是模型魯棒性和創造力的核心。

當模型能從多個角度、多種路徑思考問題時,它就不容易陷入局部最優解,也更有可能在面對新穎、復雜的問題時,找到突破性的解決方案。SSP框架,正是將這一認知系統性地融入了模型訓練的全過程。

模型的訓練過程堪稱藝術

理論的優雅需要精妙的實踐來落地。VibeThinker-1.5B將SSP原則貫徹到訓練的每一個細節中,其具體方法分為多樣性探索蒸餾和最大熵引導策略優化兩個核心步驟。

第一步:用蒸餾法萃取多樣性精華

為了在SFT(監督微調)階段打造出最廣闊的解決方案頻譜,團隊設計了一套巧妙的兩階段多樣性探索蒸餾流程。

首先是領域感知多樣性探測。

他們沒有將所有知識一鍋燉,而是認識到不同領域需要不同的多樣性思維。例如,在數學領域,他們將其細分為代數、幾何、微積分、統計等N個子領域。

然后,他們利用一個能力強大的大語言模型,為每個子領域自動構建專門的測試題集。在SFT的訓練過程中,模型每隔一段時間(比如每k步)就會被保存一個檢查點(checkpoint)。這些檢查點會被帶到各個子領域的考場上,用Pass@K指標進行評估。

最終,在每個子領域中,那個Pass@K分數最高的檢查點,就被加冕為該領域的多樣性專家模型。比如,M*代數 是最擅長用多種方法解決代數問題的模型,而 M*幾何 則是幾何領域的發散思維冠軍。

這個過程,就像是從成千上萬的實習生中,為每個部門挑選出最具創新潛力的那一個。

接下來是專家模型融合。

選出了各個領域的專家后,需要將它們的才華集于一身,打造一個全能的、多樣性最大化的SFT模型。這里使用了一種名為模型合并(Model Merging)的技術。

簡單來說,就是將這些專家模型的參數進行加權平均。公式可以表示為:

權重wi的總和為1,保證了融合后的模型參數規模不變。在VibeThinker-1.5B的實現中,團隊采用了最簡單的等權重方案(wi = 1/N),意味著每個領域的多樣性能力都被平等地注入到最終的SFT模型中。

這個融合了所有專家之長的模型 MSFT Merge,不僅在多樣性指標Pass@K上達到了頂尖水平,其單次準確率Pass@1也同樣出色。

這說明,追求思維的廣度,并不會削弱其深度。

恰恰相反,一個更廣闊的認知頻譜,似乎反而強化了通往最正確答案的那條路徑。這個強大的SFT模型,為下一階段的RL優化,奠定了無與倫比的堅實基礎。

第二步:用熵來引導模型在學習甜點區探索

進入RL(強化學習)信號階段后,團隊面臨一個新的問題:如何最高效地利用訓練數據?

傳統的RLHF(人類反饋強化學習)通常使用靜態數據集,這對于一個能力不斷進化的模型來說,效率很低。模型已經完全掌握的問題,再反復練習是浪費時間;而遠超其當前能力的問題,則會讓模型感到挫敗,難以學習。

這里,VibeThinker-1.5B引入了最大熵引導策略優化(MaxEnt-Guided Policy Optimization, MGPO)框架。

這個名字聽起來復雜,但其核心思想非常符合直覺,源于信息論。它認為,一個問題對模型訓練的價值最大化,是在模型對這個問題最不確定的時候。

想象一下一個學生。對于1+1=2,他每次都答對,再練一百遍也學不到新東西。對于黎曼猜想,他完全不懂,再看一百遍也只是徒勞。他學得最快的地方,是那些他感覺自己好像會,但又沒完全會,做起來時對時錯的題目。

這個時對時錯的狀態,在信息論中,就是熵最大的狀態。

對于一個問題,模型的回答只有正確與不正確兩種結果。當模型在多次嘗試后,答對的概率pc(q)恰好是50%時,其不確定性達到頂峰,熵最大。這個點,就是模型的學習甜點區(learning sweet spot),或者說關鍵的學習前沿。

MGPO框架的核心,就是動態地識別出這些讓模型最糾結的問題,并引導模型將學習資源優先投入其中。

它通過一個熵偏差正則化的加權方案來實現。這個方案會計算模型當前表現(答對概率pc(q))與理想的最大熵狀態(p0 = 0.5)之間的距離(使用KL散度衡量)。

距離越遠(即模型對問題要么掌握得太好,要么完全不會),分配的權重就越低;距離越近(模型表現接近50%的搖擺狀態),分配的權重就越高。

模型會自動地將注意力集中在那些它最有可能取得突破的模糊地帶。

通過這種方式,MGPO確保了每一份計算資源都花在了刀刃上,極大地提升了學習效率,讓模型能夠以最快的速度,從SFT階段提供的廣闊頻譜中,鎖定并放大那個最強的信號。

性能表現足以挑戰行業共識

VibeThinker-1.5B在一系列涵蓋數學、編碼和知識領域的權威基準測試中,交出了一份顛覆性的答卷。

評估的考場包括:

  • 數學:MATH-500、極具挑戰性的哈佛麻省理工數學競賽HMMT 2025、美國數學邀請賽AIME 2024和AIME 2025。
  • 編碼:LiveCodeBench V5和V6,評估通用編程能力。
  • 知識:GPQA-Diamond,一個包含生物、物理、化學博士級別問題的研究生水平測試。

VibeThinker-1.5B與參數量在30億以下的同級別選手進行比較。

表格中的數據清晰地展示了VibeThinker-1.5B與其基礎模型(Qwen2.5-Math-1.5B)相比,實現了脫胎換骨的進化。

在AIME25上,分數從4.3飆升至74.4;HMMT25從0.6提升到50.4;LiveCodeBench V5更是從0分突破至55.9

更重要的是,VibeThinker-1.5B不僅超越了同參數級的對手,甚至碾壓了更大一些的模型。

它在AIME25上的分數(74.4)是30億參數SmolLM(36.7)的兩倍多。在HMMT25(50.4 vs 26.0)和LiveCodeBench V5(55.9 vs 27.6)上,優勢同樣巨大。這毫無疑問地確立了它在30億參數以下級別中的王者地位。

與大型推理模型,甚至是行業巨頭的專有模型正面交鋒。這些對手的參數規模是VibeThinker-1.5B的10倍到數百倍。

結果令人震驚。

在AIME25這個極具挑戰性的數學基準上,15億參數的VibeThinker-1.5B(74.4分)擊敗了6710億參數的DeepSeek R1(70.0分),并且與OpenAI的o3-mini-Medium(74.8分)、MiniMax-M1(74.6分)幾乎打平。

在HMMT25上,它的表現(50.4分)同樣超越了DeepSeek R1(41.7分)。

這一結果直接撼動了推理能力與參數規模強相關的行業基石。

它雄辯地證明,通過精巧的算法設計和訓練策略,一個小規模模型完全有潛力在復雜的邏輯推理任務上,達到甚至超越那些體量龐大數百倍的巨型模型。

在編碼任務上,VibeThinker-1.5B與頂級大模型的差距略大一些,這主要歸因于其基礎模型更側重于數學數據。

而在GPQA這樣的廣域知識問答上,差距則更為明顯。這表明,小參數模型在存儲和處理海量、百科全書式的通用知識方面,可能確實存在固有的物理限制。

為了進一步凸顯其在推理領域的專注與強大,VibeThinker-1.5B還與一些頂級通用大模型進行了比較,如Kimi K2、Deepseek V3、GPT-4.1等。

這些模型參數規模動輒數千億乃至萬億,雖然也經過了數學和編碼數據的訓練,但其設計目標是通用對話,而非專門的鏈式思維(CoT)推理。

在數學基準上,它以巨大的優勢超過了所有這些萬億參數級別的通用模型。這有力地說明,對于需要深度邏輯推理的任務,專門優化的小而美模型,其效能遠非通用大而全模型能比。

成本與可信度是最后的拼圖

VibeThinker-1.5B的成就不僅在于性能,更在于其極致的成本效益。

整個后訓練過程(包括SFT和RL階段),在NVIDIA H800 GPU上總共只花費了約3900個GPU小時。按照當時的市場租賃價格,總計算成本不到8000美元。

用不到8000美元的成本,達到了需要花費30萬甚至50萬美元才能企及的性能水平,成本效益比達到了驚人的30到60倍。

這種成本上的巨大優勢,意味著強大的AI推理能力不再是少數巨頭的專利。它讓更多的中小型公司、研究機構和大學,都有可能參與到前沿AI的開發中來,極大地促進了AI研究的民主化。

同時,在推理部署成本上,15億參數的模型可以輕松運行在手機、汽車等邊緣設備上,其服務成本相較于巨型模型降低了20到70倍,為AI應用的廣泛落地鋪平了道路。

當然,對于任何一個表現驚艷的模型,都必須回答一個關鍵問題:數據是否被污染?模型是否只是背題,而非真正學會了解題?

VibeThinker-1.5B團隊對此采取了嚴格的數據去污染措施,通過10-gram匹配等方法,確保訓練數據與評估測試集之間不存在語義重疊。

更有力的證據來自時間線。

VibeThinker-1.5B的基礎模型發布于2024年9月。而它表現出色的AIME25和HMMT25基準測試,直到2025年才公開發布。這意味著,這些測試題根本不可能出現在其基礎模型的訓練數據中。

此外,其基礎模型在編碼任務上得分均為0,而VibeThinker-1.5B通過后訓練將分數提升至50分以上。這些從無到有的能力躍升,也強有力地證明了其性能的提升源于創新的訓練方法,而非數據泄露。

VibeThinker-1.5B證明了在邏輯推理這一核心認知領域,精巧的算法設計可以超越蠻力的參數堆砌。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-02-13 09:10:00

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-08-04 08:51:00

2025-07-31 08:45:00

模型AI開源

2025-02-06 08:06:05

2025-07-02 14:39:29

開源模型AI

2025-11-13 09:05:00

2025-01-10 12:58:37

2025-04-15 09:19:00

模型AI數據

2024-01-16 12:10:33

模型數據

2016-03-17 16:00:51

新浪微博用戶模型

2023-02-16 13:48:56

模型論文

2025-04-27 08:54:00

英偉達開源模型

2013-07-10 14:15:38

php新浪微博

2021-02-02 13:00:30

快手參數推薦精排模型

2024-07-16 13:13:26

2025-10-14 09:00:00

2023-12-03 08:49:38

微軟開源

2025-02-11 16:17:42

點贊
收藏

51CTO技術棧公眾號

亚洲国产欧美自拍| 欧美精品欧美精品| 国产激情小视频在线| 99精品视频一区二区三区| 99c视频在线| 日韩精品免费一区二区夜夜嗨 | 激情视频免费观看在线| 国产成人aaa| 日韩精品不卡| 亚洲视频综合| 成人国产亚洲精品a区天堂华泰| 国产精品麻豆| 日韩在线视频线视频免费网站| www中文字幕在线观看| 欧美亚洲愉拍一区二区| 免费动漫网站在线观看| 亚洲一区二区精品久久av| 成人18网站| 中文字幕一区在线| 99热这里只有精品在线播放| 成人精品免费网站| www.成年人视频| 国产91丝袜在线播放九色| 一区二区三区四区国产| 毛片av一区二区三区| 欧美在线播放一区二区| 性一交一乱一区二区洋洋av| 久久久久久九九| 每日更新成人在线视频| 麻豆av一区二区三区| 久久亚洲国产精品一区二区| 日韩欧美三级一区二区| 激情图片小说一区| 国产91沈先生在线播放| 国产91色综合久久免费分享| 亚洲国产精品无码观看久久| 99精品视频在线免费观看| 五月天婷婷激情视频| 国产精品色在线| 天堂男人av| 一本大道久久精品懂色aⅴ| 99中文字幕一区| 欧美成人a在线| 日韩性xxx| 久久久久久国产精品久久| 亚欧日韩另类中文欧美| 欧美激情乱人伦一区| 精品国产中文字幕第一页| 国产精品亚洲精品| 精品91在线| 视频一区二区在线| 91视频国产资源| 国产在线制服美女| 欧美电影在线免费观看| 欧美gv在线观看| 欧美精品在线观看91| 成人免费av| 激情五月综合色婷婷一区二区 | 日韩三级久久| 国产成人avxxxxx在线看| 亚洲乱码精品| 欧美日韩精品不卡| 26uuu欧美| 在线视频毛片| 日韩视频在线观看一区二区| 美女18一级毛片一品久道久久综合| 久久成人亚洲精品| 亚洲免费二区| 妞干网视频在线观看| 亚洲成人免费在线| yellow在线观看网址| 欧美激情视频三区| 国产欧美成人| 国产三级三级看三级| 欧美主播一区二区三区| 欧美成人高清视频在线观看| 91亚洲精品久久久| av激情综合网| 成人精品一区二区三区免费| 精品久久久av| 亚洲黄网站黄| 欧美少妇性生活视频| 欧美主播一区二区三区美女| 亚洲一区二区三区久久久| 成人性生交xxxxx网站| 精品综合久久久久久8888| 另类图片亚洲色图| 欧美成人性福生活免费看| 视频福利一区| 热久久最新地址| 色综合久久久久综合| 精品欧美视频| 亚洲精品成人自拍| 亚洲成人av在线电影| 97精品资源在线观看| 欧美中日韩免费视频| 一区二区三区在线观看网站| 日韩av首页| 好吊色欧美一区二区三区视频| 中文一区二区在线观看| 日本资源在线| 成人精品一区二区三区电影免费| 波多野结衣在线一区| 嫩草香蕉在线91一二三区| 日本一区二区三区四区视频| 国产精品一二三区在线| 免费高清在线观看| 成人日韩在线电影| 国产精品盗摄一区二区三区| 亚洲综合在线电影| 天堂一区二区三区 | 99精品女人在线观看免费视频 | 9l国产精品久久久久麻豆| 日本在线www| 国产日韩欧美视频在线| 日本一区二区三区在线观看| 日韩av影片| 亚洲黄色成人久久久| 欧美日韩免费一区二区三区| 日本不卡久久| 国产成人精品一区二区三区在线 | 99精品全国免费观看视频软件| 黄色a级片免费看| 欧美v日韩v国产v| 欧美在线91| 黄网站app在线观看下载视频大全官网 | 亚洲91中文字幕无线码三区| 最新天堂中文在线| 日韩中文字幕国产精品| 久久精品国产精品亚洲精品| 午夜伦全在线观看| 亚洲伊人成综合成人网| 亚洲尤物在线视频观看| 久久久久久久久久久久久久久久久久久久| 国产制服91一区二区三区制服| 日韩欧美国产综合| 午夜在线一区| 国产剧情在线| 色一情一区二区三区四区| 欧美日韩二区三区| 国产欧美精品| 免费a级毛片在线播放| 精品乱码一区| 日韩精品一区二区三区在线| 日本在线不卡视频| 末成年女av片一区二区下载| 免费观看亚洲视频| 中文字幕9999| 91小视频在线| 9l亚洲国产成人精品一区二三 | 在线看日韩精品电影| 欧美99久久| 五月婷婷在线观看| 精品乱色一区二区中文字幕| 日韩一区二区在线观看视频| 日韩国产高清在线| 欧美电影免费观看| 免费无码国产v片在线观看| 色综合久久天天综线观看| 中文字幕一区二区在线观看| 欧美精选一区二区三区| 粉嫩av在线播放| 欧美日韩亚洲在线| 亚洲欧洲高清在线| 日本一区二区三区久久久久久久久不 | 久久综合久久综合亚洲| 国产精品亚洲综合在线观看 | 成人知道污网站| 黄色无遮挡网站| 91精品国产综合久久久久久久久| 色诱视频网站一区| 亚洲一区欧美二区| 日本免费一区二区三区四区| 亚洲精品一二三四五区| 国产精品久久久久久久久久99| 欧美在线观看视频在线| 免费观看30秒视频久久| 久久69成人| 亚洲精华国产| 欧美一区二区三区四区夜夜大片| 亚洲欧美日韩国产成人| 国产精品另类一区| 亚洲视屏一区| 国产成人精品一区二区三区视频 | www.成人av.com| 亚洲精品720p| 国产精品久线在线观看| 亚洲成人国产| 亚洲最大成人| 全部a∨一极品视觉盛宴| 久久久久久a亚洲欧洲aⅴ| 自拍偷拍亚洲区| 亚洲精品你懂的| 国产欧美在线| 日韩成人在线看| 韩国三级在线观看久| 97超碰在线视| 成人天堂噜噜噜| 日韩中文字幕在线观看| 欧洲亚洲精品在线|