国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

開源Llama版o1來了,3B小模型反超80B,逆向工程復現OpenAI新Scaling Law

人工智能 新聞
雖然OpenAI o1的配方完全保密,沒有發布實現細節或代碼,但團隊基于DeepMind公布的研究結果,完成了自己的實驗。

o1完整版公開僅10天,Scaling Law新范式就被逆向工程復現了!

Hugging Face官方發文,開源了擴展測試時計算的方法。

用在小小小模型Llama 1B上,數學分數直接超過8倍大的模型也超過了計算機科學博士生的平均分數(40%)

圖片

那么用在Llama 3B上呢?進步幅度更大,甚至能和20幾倍大的70B模型媲美。

圖片

雖然OpenAI o1的配方完全保密,沒有發布實現細節或代碼,但團隊基于DeepMind公布的研究結果,完成了自己的實驗。

圖片

在DeepMind研究的基礎上,Hugging Face團隊做出如下改進:

  • 多樣化驗證器樹搜索(Diverse Verifier Tree Search),一種簡單而有效的方法,可以提高多樣性和更高性能,特別是在算力預算充足的情況下。
  • 開源輕量級工具包Search and Learn,與推理框架vLLM配合,快速構建搜索策略

測試時計算擴展策略

目前擴展測試時計算主要有兩種策略:自我優化和搜索。

自我優化中,模型識別和糾正后續迭代中的錯誤來迭代優化自己的輸出或“想法”。

團隊認為雖然此策略對某些任務有效,但通常要求模型具有內置的自我優化機制,這可能會限制其適用性。

搜索方法側重于生成多個候選答案并使用驗證器選擇最佳答案。

搜索策略更靈活,可以適應問題的難度。Hugging Face的研究主要聚焦于搜索方法,因為實用且可擴展。

其中驗證器可以是任何東西,從硬編碼到可學習的獎勵模型,這里將重點介紹可學習的驗證器。

具體來說,研究涉及三種搜索策略:

圖片

  • Best-of-N

為每個問題生成多個響應,并使用獎勵模型為每個候選答案分配分數。選擇分數最高的答案(或加權變體),這種方法強調答案質量而不是頻率。

  • Beam search

一種探索解決方案空間的系統搜索方法,通常與過程獎勵模型 (PRM) 相結合,以優化解決問題中中間步驟的采樣和評估。與在最終答案上產生單個分數的傳統獎勵模型不同,PRM提供一系列分數,推理過程的每個步驟分配一個分數。這種提供精細反饋的能力使PRM非常適合大模型。

  • 多樣化的驗證器樹搜索 (DVTS)

新開發的Beam search變體,它將初始Beam拆分為獨立的子樹,然后使用PRM做貪婪擴展。這種方法可以提高解決方案的多樣性和整體性能,尤其是在測試時算力預算較大的情況下。

實驗設置:3種搜索策略PK

圖片

  • 首先將數學問題提供給大模型,生成N個中間步驟。
  • 每個步驟都由PRM評分,估計每個步驟最終能得出正確答案的概率。
  • 給定的搜索策略使用這些步驟和PRM分數,來選擇應該進一步探索哪些方向,生成下一輪中間步驟。
  • 搜索策略終止后,PRM將對最終候選解決方案進行排名,以生成最終答案。

為了比較各種搜索策略,研究中使用了以下開放模型和數據集:

語言模型,Llama-3.2-1B-Instruct作為主要實驗對象,因為輕量級模型可以快速迭代,并且在數學基準測試中性能不飽和

流程獎勵模型,使用了Llama3.1-8B-PRM-Deepseek-Data,與語言模型同屬一個系列,且在測試中給出了更好的結果。

數據集,使用MATH基準測試的子集MATH-500,該子集由OpenAI發布,數學問題橫跨7個科目,對人類和大多數模型來說都有挑戰性。

實驗結果:動態分配策略達到最優

首先,多數投票策略比貪婪解碼基線有顯著改進,收益在大約N=64后趨于穩定。

團隊認為,之所以出現這種限制,是因為多數投票難以解決需要細致入微推理的問題,或者解決幾個答案錯到一塊去的任務。

圖片

獎勵模型加入后的策略,表現均有提高。

Best-of-N策略分為兩種變體,原版(Vanilla)不考慮答案之間的一致性,加權版(Weighted)匯總所有結果相同的答案,并選擇總分數最高的。

結果發現加權版始終優于原版,特別是在算力預算大的時候更明顯,因為確保了頻率較低但質量較高的答案也能獲選。

圖片

Beam Search策略終于讓1B模型表現開始高于8B。

但Beam Search并不是萬金油方法,在簡單的問題上表現反而不如Best-of-N。

團隊通過查看結果樹,發現如果一個中間步驟獲得了高分,那么整個樹就會坍塌到這一步,影響了后續答案的多樣性。

圖片

最終,DVTS方法改進了答案的多樣性,該方法與Beam Search相比有以下不同之處:

  • 對于給定的Beam寬度(M)和生成數量N,初始Beam集設定為N/M個獨立子樹
  • 對于每個子樹,選擇PRM分數最高的步驟
  • 生成M個新的下一步,繼續選擇分數最高的
  • 重復這個過程,直到生成EOS token后終止,或達到最大深度

圖片

在對問題難度細分后,發現DVTS方法在N比較大時增強了對簡單/中等難度問題的性能。

而Beam Search在N比較小時仍然表現最好。

圖片

最終基于問題難度動態分配策略的方法可以取得最佳成績。

圖片

最后團隊提出,未來這項技術還有更多值得探索的地方:

  • 更強大的驗證器,提高其穩健性和泛化能力至關重要。
  • 最終目標是實現自我驗證,目前在實踐中仍然難以實現,需要更細致的策略。
  • 在生成過程中加入明確的中間步驟或 “想法” ,通過將結構化推理整合到搜索過程中,可以在復雜任務中獲得更好的性能。
  • 搜索方法可以用于合成數據,創建高質量的訓練數據集
  • 開放的流程獎勵模型目前數量較少,是開源社區可以做出重大貢獻的領域
  • 目前的方法在數學和代碼等領域表現出色,這些問題本質上是可驗證的,如何將這些技術擴展到結構性較差或評判標準主觀的任務,仍是一個重大挑戰。

評論區有網友表示,這種方法更適合本地部署,而不是API調用,因為調用256次3B模型和過程獎勵模型,通常會比調用一次70B模型更貴。

圖片

也有人建議在Qwen系列模型上嘗試,以及指路天工Skywork發布了兩個基于Qwen的PRM模型

圖片

開源代碼:https://github.com/huggingface/search-and-learn

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-18 07:10:00

2024-09-14 14:00:00

AI模型

2024-11-05 14:20:00

AI模型

2024-09-18 09:17:00

OpenAI模型開源

2024-08-15 15:45:00

AI訓練

2024-10-17 13:30:00

2024-11-25 08:30:00

2025-09-19 11:09:40

2025-09-12 10:02:21

AI模型開源

2024-10-05 00:00:00

2024-12-05 10:16:14

2024-09-24 11:01:03

2024-06-04 14:09:00

2024-12-09 07:00:00

o1-mini模型強化微調OpenAI

2024-08-14 14:30:00

AI訓練

2025-06-25 09:14:00

2025-02-03 14:17:27

2024-11-11 17:35:11

2024-10-14 13:40:00

2024-03-27 09:09:57

模型AI開源
點贊
收藏

51CTO技術棧公眾號

国产一区二区精品福利地址| 久久99热这里只有精品| 久色成人在线| 午夜一区二区三区在线观看| 久久久久久中文| 国产91露脸合集magnet| 欧美精品乱码久久久久久| 国产在线视频2019最新视频| 日日碰狠狠躁久久躁婷婷| 国产原创在线观看| 看黄色免费网站| 成人在线视频观看| 国产精品996| 亚洲美女激情视频| 日韩和欧美的一区二区| 黄色av网站在线看| 偷拍欧美精品| 欧美日韩国产激情| 91视频8mav| 黄页视频在线观看| 国产一区二区三区91| 自拍偷拍亚洲精品| 国产肉体ⅹxxx137大胆| 欧美一级大黄| 国产精品一区二区在线观看网站| 亚洲精品v欧美精品v日韩精品 | 亚洲ab电影| 国产精品麻豆网站| 欧美孕妇与黑人孕交| 国产精品三级a三级三级午夜| 天美av一区二区三区久久| 中文字幕亚洲在| 国产成人精品综合| 精品久久久久一区二区三区| 国产精品二三区| 成人一区二区电影| jizz亚洲| 免费在线日韩av| 日韩久久免费视频| 99色精品视频| 亚洲国产精品久久久久蝴蝶传媒| 色婷婷久久一区二区三区麻豆| 欧美精品人人做人人爱视频| 九色porny自拍视频在线观看| 91在线观看污| 国产成人免费av| 九一精品国产| 欧美日韩精品一区二区三区四区| 强伦女教师2:伦理在线观看| 麻豆视频久久| 日韩欧美在线网址| 艳母动漫在线免费观看| 乱中年女人伦av一区二区| 欧美日韩性视频| 免费观看黄色大片| 国产美女一区二区三区| 久久69精品久久久久久国产越南| 亚洲私人影吧| 成人sese在线| 97se亚洲综合| 亚洲91在线| 黄色成人av网| 欧美婷婷久久五月精品三区| 国产精选一区二区三区| 成人毛片100部免费看| 日韩精品免费| 亚洲精品有码在线| 欧美成人aaa| 91麻豆精品久久久久蜜臀| 欧美日韩在线视频一区二区三区| 最新精品国产| 久久精品在线播放| 亚洲图片88| 国产日韩欧美在线一区| 精品伦精品一区二区三区视频| 人人视频精品| 欧美成人中文字幕| 久草成色在线| 亚洲午夜成aⅴ人片| 福利视频免费在线观看| 亚洲国产一成人久久精品| 欧美大陆一区二区| 成人免费视频免费观看| 国产传媒一区二区| 九九99久久精品在免费线bt| 欧美亚洲视频在线观看| 亚洲理论在线| 成人免费在线视频网址| 免费观看久久久4p| 国产精品一区视频网站| 精品九九在线| 高清亚洲成在人网站天堂| 久久综合国产| 91高清视频免费| 唐人社导航福利精品| 欧美最近摘花xxxx摘花| 69堂免费精品视频在线播放| 久久久亚洲网站| 亚洲精品社区| 91av俱乐部| av亚洲精华国产精华| 亚洲毛片aa| 国产精品久久久久久久免费软件| 国产精品高潮呻吟久久av野狼| 丝袜诱惑一区二区| 日韩欧美黄色影院| 91在线高清| 亚洲成在线观看| 69国产精品视频| 久久一区二区视频| 久久这里只有精品8| 亚洲成a人片综合在线| 亚洲少妇视频| 69174成人网| 国产精品久久久久久一区二区三区 | 久久riav| 99久久夜色精品国产亚洲1000部| 日本不卡一区二区三区四区| 亚洲一区二区三区美女| 国产精品原创视频| 欧美一区观看| 全部av―极品视觉盛宴亚洲| 国产一区福利视频| 在线观看精品国产视频| 国内在线观看一区二区三区| 国产传媒久久久| 舔着乳尖日韩一区| 欧美视频精品全部免费观看| 色婷婷久久av| 日韩一区二区三区精品| 九九九九九精品| 亚洲在线视频网站| 神马精品久久| 国产欧美日本一区视频| 亚洲欧美自偷自拍另类| 国产亚洲一二三区| 僵尸再翻生在线观看| 国产一区二区三区视频在线观看| 日本一区二区电影| 久久99精品国产99久久6尤物| 日韩国产精品久久久久久亚洲| 欧美成ee人免费视频| 毛片一区二区三区| 永久免费看av| 99精品黄色片免费大全| av片在线观看网站| 日韩精品在线观看网站| 欧美亚韩一区| 国产又大又长又粗又黄| 欧美日韩午夜影院| 国产精品偷拍| 亚洲男人的天堂在线播放| 亚洲在线国产日韩欧美| 欧美亚洲视频一区| 日韩一区二区三区三四区视频在线观看| а√天堂中文在线资源8| 麻豆av一区二区三区| 欧美日韩精品免费观看视频| 午夜精品久久99蜜桃的功能介绍| 又黄又www| 欧美一区二区日韩一区二区| 日日av拍夜夜添久久免费| 国模精品一区二区三区色天香| 国产成人亚洲精品青草天美| 性xxxxfreexxxxx欧美丶| 久久久久久久久久久久久国产| 亚洲欧美第一页| 99re这里都是精品| 9l亚洲国产成人精品一区二三 | 日韩欧美一区中文| 久久美女性网| av剧情在线观看| 精品中文字幕在线2019| 97精品视频在线观看自产线路二| 日韩大陆av| 成人禁在线观看网站| 欧美日韩视频在线一区二区| 狠狠干综合网| 国产网站在线免费观看| 午夜精品美女久久久久av福利| 欧美韩国一区二区| 西野翔中文久久精品国产| 在线资源av| 日韩专区在线播放| 亚洲色图88| 欧美日韩二三区| 亚洲午夜电影在线| 天天色天天射综合网| 欧美成人hd| 91精品国产电影| 亚洲综合视频在线观看| 国产精品麻豆久久| a视频在线观看| 国产99久久久欧美黑人| 免费成人小视频| 精品成人18| 邻家有女韩剧在线观看国语| 午夜久久久久久久久久久| 国内精品伊人久久| 欧美日韩精品欧美日韩精品一|