国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

重大突破!微軟發布“自我進化”,幫小模型超OpenAI-o1

人工智能 新聞
在美國數學競賽AIME 2024測試中,rStar-Math平均解決了53.3%(8/15)的難題,超過了OpenAI o1-preview的44.6%,以及所有其他開源的大模型,成為最聰明的前20%高中數學生。

微軟亞洲研究院發布了一種創新算法——rStar-Math。

rStar-Math通過代碼增強CoT、蒙特卡洛樹搜索等,可以幫助小參數模型在不依賴老師模型蒸餾的情況下,實現多輪自我思維深度進化,極大增強模型的數學推理能力。

在美國數學競賽AIME 2024測試中,rStar-Math平均解決了53.3%(8/15)的難題,超過了OpenAI o1-preview的44.6%,以及所有其他開源的大模型,成為最聰明的前20%高中數學生。

在MATH基準測試中,rStar-Math將阿里開源的小模型Qwen2.5-Math-7B的準確率從58.8%提高到90.0%,Qwen2.5-Math-1.5B的準確率從51.2%提高到87.8%,Phi3-mini-3.8B從41.4%提高到86.4%,全部超過了OpenAI o1-preview。

這充分說明,小模型在創新算法和高質量數據加持下,推理能力同樣可以超大參數的前沿模型。

圖片

代碼增強CoT

傳統的數學推理模型依賴于自然語言生成的推理步驟,這種方法雖然直觀,但容易產生錯誤或不相關的步驟,尤其是在復雜的數學問題中很難被察覺到。所以,rStar-Math使用代碼增強CoT(Chain-of-Thought,思維鏈)的方法來解決這個難題。

模型在生成每一步推理時,不僅生成自然語言的解釋,還生成對應的Python代碼,并通過代碼執行來驗證推理步驟的正確性。代碼增強CoT能夠提供嚴格的驗證機制,確保每一步推理的正確性。

例如,在解決一個數學問題時,模型可能會生成一個方程求解的步驟,并通過Python代碼實際執行該方程求解過程。如果代碼執行成功且結果正確,該步驟才會被保留為有效推理步驟。這種方法不僅減少了錯誤推理步驟的生成,還提高了推理軌跡的整體質量。

圖片

為了進一步確保推理步驟的質量,rStar-Math 使用了蒙特卡洛樹搜索(MCTS)來生成逐步推理軌跡。MCTS 被用來分解復雜的數學問題為多個單步生成任務。

每個步驟中,策略模型生成多個候選步驟,并通過代碼執行來過濾有效節點。通過廣泛的MCTS回滾,rStar-Math 能夠為每個步驟分配Q值,確保生成的推理軌跡由正確且高質量的中間步驟組成。

PPM訓練方法

目前,多數大模型在推理數學問題時面臨著無法提供細粒度的步驟級反饋,以幫助其在推理過程中做出更優的選擇。rStar-Math通過引入過程獎勵模型(PRM)來幫助模型找到更優的推理路徑。

PPM 的核心思想是通過構建步驟級的正負偏好對來訓練模型,而不是直接依賴于精確的步驟級評分。PPM 的訓練方法利用了MCTS生成的Q值,這些Q值是通過廣泛的回滾和反向傳播過程計算得出的,反映了每個步驟對最終答案的貢獻。雖然這些Q值本身并不完全精確,但它們能夠可靠地區分高質量步驟和低質量步驟。

圖片

PPM從MCTS樹中選擇Q值最高的兩個步驟作為正例,Q值最低的兩個步驟作為負例,構建偏好對。通過這種方式,PPM 能夠學習到哪些步驟更有可能引導模型生成正確的推理軌跡,從而在推理過程中做出更優的選擇。

PPM 的訓練過程采用了標準的Bradley-Terry 模型和成對排序損失函數。對于每個步驟,PPM 預測一個獎勵分數,并通過成對排序損失函數來優化模型的預測能力。成對排序損失函數的核心思想是最大化正例步驟與負例步驟之間的獎勵分數差異,從而確保模型能夠準確地區分高質量和低質量的推理步驟。

圖片

PPM 的訓練方法還引入了一個重要的創新點,避免直接使用Q值作為獎勵標簽。雖然Q值能夠提供一定的步驟級反饋,但由于其固有的噪聲和不精確性,直接使用Q值作為訓練目標會導致模型學習到不準確的獎勵信號。

所以,PPM 通過構建偏好對將Q值轉化為相對排序問題,從而減少了噪聲對模型訓練的影響。這種方法不僅提高了模型的魯棒性,還使得PPM能夠在推理過程中更可靠地評估每一步的質量。

多輪自我進化

rStar-Math通過四輪自我思維深度進化,并結合PPM、MCTS和代碼增強CoT 逐步增強模型的推理能力。

第一輪,通過監督微調對基礎模型進行初步改進,為后續的自我進化奠定基礎。這一輪的關鍵在于生成高質量的初始訓練數據,并利用這些數據對基礎模型進行微調。

第二輪,通過PPM顯著提升模型推理能力。PPM通過分析策略模型生成的推理步驟,識別出哪些步驟是高質量的,哪些步驟需要改進。然后將這些反饋信息傳遞給策略模型,指導其在后續的推理中做出更好的選擇。

圖片

第三輪,通過PPM增強的MCTS生成更高質量的數據,進一步提升模型的推理能力。在這一輪中,PPM不僅評估策略模型生成的推理步驟,還指導MCTS的搜索過程,使其更有效地探索高質量的推理路徑。

第四輪,通過增加MCTS回滾次數解決超難數學推理問題。在前三輪自我進化的基礎之上,第四輪自我進化通過增加MCTS的回滾次數,進一步提升了rStar-Math解決具有挑戰性數學問題的能力。

增加回滾次數使得MCTS能夠更深入地探索不同的推理路徑,發現那些在初步探索中可能被忽略的高質量解決方案。這不僅提高了模型對復雜問題的解決能力,還增強了其在面對高難度數學問題時的魯棒性。

代碼地址(目前無法打開處于審核中):https://github.com/microsoft/rStar

論文地址:https://arxiv.org/abs/2501.04519

從昨天微軟開源的最強小模型Phi-4,以及最新推出創新算法rStar-Math來看,未來小模型的性能和效率將逐漸成為主流,并且對于沒有強大算力集群的中小企業和個人開發者來說非常實用。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2024-06-19 15:24:38

2025-04-22 09:50:01

2024-09-13 06:32:25

2025-01-23 10:45:52

2024-11-06 16:47:33

2024-12-09 11:06:31

2025-06-13 08:11:11

2021-02-22 10:38:05

人工智能人工智能產業圖譜

2012-08-30 10:05:57

VMware

2021-01-20 09:41:46

量子無人機網絡

2025-01-10 11:42:40

2024-09-13 10:14:36

2016-01-05 17:07:10

LiFi技術無線技術

2024-11-05 14:48:57

2012-12-11 09:55:03

IBM硅納米光電傳導

2009-04-02 08:49:20

Opera瀏覽器表情控制

2022-01-10 08:00:43

認知智能AI

2018-12-25 22:17:09

固態硬盤芯片性能

2024-09-13 10:06:21

2025-12-02 08:42:00

AI模型數據
點贊
收藏

51CTO技術棧公眾號

欧美日韩在线精品一区二区三区激情综| 国产va免费精品高清在线观看| 亚洲 日韩 国产第一区| 亚洲精品tv| 91麻豆精品91久久久久同性| 日韩精品一区二区三区外面| 亚洲成人五区| 亚洲一区二区久久久| 精品美女视频在线观看免费软件 | 国产成人精品午夜视频免费| 日本欧美中文字幕| 日本免费久久| 亚洲国产美女搞黄色| 日韩.欧美.亚洲| 亚洲香蕉视频| 97精品一区二区三区| 中文字幕在线免费观看视频| 8x8x8国产精品| 韩国中文免费在线视频| 国产精品久久久久精k8| 久色视频在线播放| 国产成人啪午夜精品网站男同| 91免费国产视频| 亚洲一区二区三区久久久| 欧美一区二区三区免费视频 | 国产精品美女午夜av| 亚洲一区网址| 九九热在线精品视频| 日韩精选视频| 欧美影片第一页| 91在线不卡| 欧美日韩免费区域视频在线观看| 91黑丝在线| 同产精品九九九| 香蕉视频免费在线播放| 91精品国产高清一区二区三区蜜臀| 四虎影视2018在线播放alocalhost| 亚洲一区影音先锋| 成年人免费在线视频| 欧美一区二区三区思思人| 搞黄网站在线看| 国语自产精品视频在线看一大j8| 国产96在线亚洲| 久99久视频| 91视视频在线观看入口直接观看www | 精品va天堂亚洲国产| 欧美一级大黄| 青青精品视频播放| 日韩电影在线一区二区| avav在线播放| 色婷婷av一区二区三区之一色屋| 国产伦久视频在线观看| 日本精品久久久久久久| 国产欧美日韩综合一区在线播放 | 亚洲一区二区三区乱码aⅴ| 亚洲午夜av| 超清福利视频| 精品亚洲一区二区三区| 国产99久久| 青青在线视频免费观看| 亚洲一级片在线观看| 波多一区二区| 国产午夜精品一区| 中文字幕日本不卡| 国产精品原创视频| 日韩精品久久久毛片一区二区| 中文一区一区三区高中清不卡| 黄色的视频在线观看| 91久久久久久久久| 亚洲乱码精品一二三四区日韩在线| а√天堂8资源在线官网| 91久热免费在线视频| 中文字幕欧美一区| 91视频亚洲| 黄色一级一级片| 日韩精品一区国产麻豆| 日本不卡二三区| 福利在线白白| 欧美在线不卡区| 99久久精品国产麻豆演员表| 金瓶狂野欧美性猛交xxxx| 成人国产在线激情| 亚洲男同性视频| 日韩电影精品| 国产日韩av网站| 最近2019中文字幕mv免费看| 国产成人在线视频免费播放| 嗯啊主人调教在线播放视频| 亚洲精品日韩av| 亚洲欧美在线高清| 国产精品亚洲二区| 三区在线视频| 精品国产乱码久久久久久蜜柚 | 97在线资源在| 国产精品人人做人人爽| 欧美性jizz18性欧美| 另类图片国产| 澳门av一区二区三区| 国产九九在线观看| 91在线短视频| 亚洲国产欧美在线成人app| 99热精品一区二区| 久久美女精品| 日产福利视频在线观看| 18岁视频在线观看| 98国产高清一区| 久久久国产精彩视频美女艺术照福利 | 欧美一区二区二区| 丁香婷婷深情五月亚洲| 亚洲最大在线| 在线免费黄色| 亚洲精品国产suv一区88| 97久久久久久| 日韩av一区二区在线观看| 国产无人区一区二区三区| 国产精品v日韩精品v欧美精品网站 | 亚洲免费播放| 久久久91麻豆精品国产一区| 97在线观看免费高清视频| 欧美一级视频在线播放| 91久久大香伊蕉在人线| 久久久久久久av| 亚洲成人精品久久久| 婷婷国产v国产偷v亚洲高清| 成人综合在线视频| 日本中文字幕一区二区视频| 91精品秘密在线观看| 色婷婷狠狠五月综合天色拍| 国语对白在线刺激| 中文字幕在线观看网站| 在线观看一级片| 免费看成一片| 久草亚洲一区| 亚州福利视频| 国产精品jvid在线观看蜜臀| 91精品国产色综合久久| 亚洲精品第一页| 日韩av免费看| 日本精品一区二区| 亚洲黄色小视频在线观看| 国产乱色在线观看| 精品国产亚洲一区二区三区在线| 97视频热人人精品免费| 国产一区二区三区免费在线观看 | 免费观看在线黄色网| 欧洲精品二区| 欧美美女福利视频| 欧美成人日本| 久久久www成人免费无遮挡大片| 色婷婷精品久久二区二区蜜臂av| 91精品午夜视频| 国产专区欧美精品| 亚洲国产精品t66y| 在线观看欧美黄色| 久久久久久尹人网香蕉| 久久久久久久久一区二区| 老熟妇仑乱视频一区二区| 国产在线观看高清视频| 亚洲精品推荐| 成人激情小说乱人伦| 久久人体视频| 在线精品小视频| 久久成人久久鬼色| 日韩一区二区免费看| 五月天亚洲一区| av大大超碰在线| 韩日一区二区| 国产精品嫩草99av在线| 国产精品日日摸夜夜摸av| 精品美女在线观看| 亚洲va久久久噜噜噜久久天堂| 欧美一级大胆视频| 爱福利视频一区| 欧美色视频日本版| 成人性生交大片| 麻豆9191精品国产| 日韩高清一区| 天天干天天操天天做| 国产一区二区三区无遮挡| 亚洲日本欧美中文幕| 91精品国产麻豆| 色综合老司机第九色激情| 久久成人av网站| 欧美13一14另类| 激情综合网婷婷| 成人精品国产亚洲| 国产a亚洲精品| 爆操欧美美女| 污污的网站在线看| 婷婷久久综合九色综合99蜜桃| 精品影院一区| 黄色网在线播放| av色在线观看| 91香蕉在线观看| 天然素人一区二区视频| 性欧美video另类hd尤物| 欧美a大片欧美片| 亚洲高清av| 麻豆一区二区99久久久久| 国产精品一二三四五|