国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

阿里國際版o1來了,Marco-o1:聚焦開放式問題推理

人工智能 新聞
大模型推理的一個關鍵挑戰在于,現實世界常常提出很多開放式和創造性的問題,對于 AI 來說,這是一類很難評估的任務,因為沒有「標準答案」或者易于量化的獎勵。

自從 OpenAI 發布 o1 模型以來,業界對其的追趕不斷加速。

大模型推理的一個關鍵挑戰在于,現實世界常常提出很多開放式和創造性的問題,對于 AI 來說,這是一類很難評估的任務,因為沒有「標準答案」或者易于量化的獎勵。

我們能否訓練一個模型,讓它能夠從容應對無法避免的「模糊性」,仍然生成可靠的推理結果?

11 月 22 日,阿里巴巴國際數字商業集團MarcoPolo團隊發布了 Marco-o1,這是一種旨在推進開放式問題解決的大型推理模型 (LRM)。當然該工作也提到:這是一項正在進行的探索性工作,仍有進一步改進的空間。

這篇論文篇幅并不長,讓我們來梳理下技術細節。

圖片

  • 論文標題:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
  • 論文鏈接:https://arxiv.org/pdf/2411.14405
  • 項目地址:https://github.com/AIDC-AI/Marco-o1

雖然 o1 模型在 AIME 和 CodeForces 等測試中都展示了強大的推理能力,但 Marco-o1 的目標是超越結構化挑戰,實現跨多個領域的泛化,特別是在那些沒有嚴格評估指標的領域。通過集成諸如思維鏈 (CoT) 微調、蒙特卡洛樹搜索 (MCTS) 和推理動作策略等技術來實現的,Marco-o1 能夠更有效地處理復雜的問題解決任務。

通過微調 Qwen2-7B-Instruct 與過濾后的 Open-o1 CoT 數據集 、Marco-o1 CoT 數據集和 Marco-o1 指令數據集的組合,Marco-o1 提高了對復雜任務的處理能力。

  • Open-o1 CoT 數據集(已過濾):研究者通過應用啟發式和質量過濾過程完善了 Open-o1 項目的 CoT 數據集,這一改進使模型能夠有效地采用結構化推理模式。
  • Marco-o1 CoT 數據集(合成):研究者使用 MCTS 生成了 Marco-o1 CoT 數據集,這有助于制定復雜的推理路徑,進一步增強了模型的推理能力。
  • Marco 指令數據集:認識到強大的指令遵循能力在執行復雜任務中的關鍵作用,研究者整合了一組指令遵循數據。這種整合確保了模型能夠勝任各種任務,在保持其普遍有效性的同時顯著增強其推理能力。

圖片

結果顯示,Marco-o1 在 MGSM(英文)數據集上的準確率提高了 6.17%,在 MGSM(中文)數據集上的準確率提高了 5.60%,展示了更強的推理能力。

在翻譯任務中,實驗還證明 Marco-o1 在翻譯俚語表達方面表現出色。例如,該模型正確地將中文中字面意思為「這只鞋給人一種踩屎感」的俗語翻譯成了英文「This shoe has a comfortable sole」(這只鞋的鞋底很舒服),證明了它對俗語細微差別的精準把握。

基于 MCTS 的解空間擴展

圖片

該研究將 LLM 與 MCTS 集成在一起,以增強 Marco-o1 模型的推理能力:

  • 節點是推理狀態:在 MCTS 框架中,每個節點代表解決問題過程的推理狀態;
  • 動作作為 LLM 輸出:節點可能執行的動作是 LLM 生成的輸出。這些輸出代表推理鏈中的潛在 step 或 mini-step;
  • Rollout 和獎勵計算:在 rollout 階段,LLM 繼續推理過程直至終止狀態;
  • 指導 MCTS:獎勵分數 R 用于評估和選擇 MCTS 中的有希望的路徑,從而有效地引導搜索走向更置信、更可靠的推理鏈。

此外,該研究通過計算置信度得分來獲得每個狀態的值。對于最終結果的每個 token t_i,作者通過將 softmax 函數應用于其對數概率和前 5 個替代 token 的對數概率來計算其置信度得分。這由以下公式給出:

圖片

在獲得最終結果的所有 token 的置信度得分后,然后計算所有 token 的平均置信度得分,從而得出總獎勵得分:

圖片

此平均值作為獎勵信號,用于評估推理路徑的質量。較高的 v 表示更置信且更準確的推理路徑。

通過采用這種方法,該研究有效地擴展了解空間,使模型能夠探索大量推理路徑并根據計算出的置信度分數選擇最可能的路徑。

推理動作策略

動作選擇

該研究觀察到使用動作作為 MCTS 搜索的粒度相對粗糙,導致模型經常忽略對解決復雜問題至關重要的細微推理路徑。

為了解決這個問題,該研究探索了 MCTS 搜索中的不同粒度級別。

最初,他們使用 step 作為搜索單位。

為了進一步擴展模型的搜索空間并增強其解決問題的能力,作者嘗試將這些 step 分成包含 64 或 32 個 token 較小的單元,稱為 mini-step。這種更加精細的粒度允許模型更詳細地探索推理路徑。

然而,雖然 token 級搜索在理論上提供了最大的靈活性和粒度,但由于需要大量的計算資源,以及設計這一級別的有效獎勵模型挑戰巨大,因此目前它是不切實際的。

實驗中,該研究在 MCTS 框架內實施了以下策略:

Step 作為動作:允許模型生成完整的推理 step 作為動作。每個 MCTS 節點代表一個完整的思維或動作標簽。這種方法可以實現有效的探索,但可能會錯過解決復雜問題所必需的更細粒度的推理路徑。

Mini-step 作為動作:使用 mini-step(32 或 64 個 token)作為動作。這種更細的粒度擴展了解空間,并通過在搜索過程中考慮更細微的 step 來提高模型處理復雜推理任務的能力。通過在這個級別探索解空間,模型可以更好地找到可能被更大的動作單元忽略的正確答案。

思考后進行反思

作者還引入了反思機制,通過在每個思考過程的末尾添加短語「Wait! Maybe I made some mistakes! I need to rethink from scratch?!?這提示模型自我反思并重新評估其推理步驟。實施這種反思機制已經帶來了顯著的改進,特別是在原始模型最初無法正確解決的困難問題上。加上反思,這些具有挑戰性的問題大約有一半得到了正確的回答。

從自我批評的角度來看,這種方法使模型能夠充當自己的批評者,識別其推理中的潛在錯誤。通過明確地提示模型質疑其初步結論,獎勵模型重新表達和完善其思維過程。這種自我批評機制利用了模型檢測自身輸出中的不一致性或錯誤的能力,從而得到更準確、更可靠的解決方案。反思步驟充當了一個內部反饋循環,增強了模型在沒有外部干預的情況下自我糾正的能力。 

實驗及結果

作者基于 Qwen2-7B-Instruct,并在訓練數據上進行了 SFT,得到 Marco-o1-CoT。此外,作者在 MCTS(蒙特卡羅樹搜索)框架中使用了 Marco-o1-CoT,通過動作來區分: 

  • Marco-o1-MCTS (step):使用每個推理 step 作為一個動作(step);
  • Marco-o1-MCTS (mini-step of 64 tokens):使用 64 個 token 的 mini-step 作為一個動作(64 個 token);
  • Marco-o1-MCTS (mini-step of 32 tokens):使用 32 個 token 的 mini-step 作為一個動作(32 個 token)。

測試過程中,每個模型都使用了 CoT 提示來確保推理過程的一致性。

結果表明:在 MGSM-en 數據集中,Marco-o1-CoT 比 Qwen2-7B-Instruct 表現優異,如圖 4 所示,這是由于使用了英文 CoT 數據進行了微調。然而,在 MGSM-zh 數據集中,Marco-o1-CoT 的表現與 Qwen2-7B-Instruct 相比有所下降。這種下降歸因于用于微調的 CoT 數據是英文的,這可能無法有效地遷移到中文數據中。

圖片

這三個經過 MCTS 增強的模型表現出比 Marco-o1-CoT 更好的改進,表明融入 MCTS 有助于擴展模型的解空間,并增加獲得正確答案的概率。然而,由于本文使用置信度得分作為獎勵,樹搜索結果顯示出顯著的隨機性。

在 MGSM-en 中,step 作為動作策略表現最好,而在 MGSM-zh 中,mini-step 作為動作(32)策略產生了最高的準確性。目前,如圖 4、5 和 6 所示,作者還無法得出哪種動作策略更優的明確結論。但研究者相信,隨著獎勵變得更準確,MCTS 提供的更大解空間將展現出更大的潛力。 

圖片

圖片

如圖 7、8 和 9 所示,Marco-o1 在處理復雜翻譯任務(尤其是口語和俚語)上具有高級理解和推理能力,優于 Google 翻譯等標準翻譯工具。

圖片

圖片


圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-24 11:01:03

2024-11-07 15:40:00

2024-10-17 14:10:00

模型訓練

2024-11-05 14:20:00

AI模型

2024-09-29 13:07:16

2025-01-20 09:28:00

AI工具模型

2024-10-18 13:01:24

2024-09-18 09:17:00

OpenAI模型開源

2024-11-29 13:57:38

2024-11-04 09:00:00

2025-01-08 13:08:55

2024-12-06 11:44:48

Pro模式AI人工智能

2024-11-25 15:50:00

模型訓練

2024-11-21 14:00:00

模型AI

2025-03-10 08:10:00

AI研究安全

2025-01-21 13:15:15

2024-12-17 12:30:00

2025-01-21 08:00:00

2024-12-06 08:36:31

點贊
收藏

51CTO技術棧公眾號

欧美日本精品| av在线资源站| 国产精选久久| 精品日韩99亚洲| 在线国产1区| 青青草原在线亚洲| 日韩免费看网站| 男人添女人下面免费视频| 国产精品一品视频| 欧美日韩在线观看一区| av在线播放一区二区三区| www.欧美黄色| 亚洲日本电影在线| 国产激情999| 日韩精品91亚洲二区在线观看| 亚洲国产高清国产精品| 超碰99在线| 久久久久久久久久美女| 国产精品亚洲视频在线观看| 成人看片网站| 日韩一区二区三区免费看 | 天天综合天天操| 久久久不卡影院| 在线播放的av| 99综合电影在线视频| 国产精成人品2018| 久久久久久久久免费| 97欧洲一区二区精品免费| 中文字幕一区二区三区免费视频| 亚洲激情欧美| 久久久精品免费视频| 中文字幕欧美一区二区| 中国色在线观看另类| 蜜桃在线一区| 亚洲欧美激情视频| 女女色综合影院| 在线观看不卡一区| 最新在线地址| 黑人巨大精品欧美一区二区三区 | 欧美zzoo| 午夜精品久久久久久久久久| 成人18网址在线观看| 欧美激情一区在线观看| 黄色国产小视频| 久久久久久9999| 亚洲第一狼人区| 中文一区二区完整视频在线观看| 一本二本三本亚洲码| 极品销魂美女一区二区三区| 亚洲激情一区二区| 国产一区二区免费视频| 高清日韩中文字幕| 亚洲视屏在线播放| 亚洲欧美综合精品久久成人| 黄a在线观看| 欧美日韩国产大片| 日本一本在线免费福利| 日韩成人av一区| 国产国产一区| 欧美高清无遮挡| 欧洲杯什么时候开赛| 92福利视频午夜1000合集在线观看| 自拍偷拍欧美| 久久精品国产美女| 国产精品小仙女| 成人一区二区三| 亚洲精品综合在线| 成年人在线观看视频| 欧美日韩三级一区二区| 高清在线视频不卡| 久久在线精品视频| 九九视频免费观看视频精品| 999国内精品视频在线| 性高湖久久久久久久久| 草草草视频在线观看| 久久久三级国产网站| 三级黄色网址| 欧美一区二区人人喊爽| 激情aⅴ欧美一区二区欲海潮| 亚洲午夜精品久久久久久久久久久久| 伊人精品综合| 亚洲精品免费一区二区三区| 日韩国产欧美在线视频| 成年人黄色片视频| 色先锋aa成人| 成人全视频免费观看在线看| 国产精品美女无圣光视频| 日韩国产欧美一区二区三区| 男女午夜激情视频| 精品久久久久久久久中文字幕 | 国产成人在线视频网址| blacked蜜桃精品一区| 日本一区二区三区精品视频| 精品免费av| 欧美日韩国产综合在线| 不卡的av中国片| 在线成年人视频| 亚洲乱码一区二区| av一区二区高清| 国产精品免费看久久久无码| 亚洲一区av在线| 大胆人体一区二区| 亚洲一区国产精品| 久久午夜老司机| 成人av黄色| 日韩av电影中文字幕| 久久激情综合| 国产xxxxx18| 精品伊人久久97| 99久久精品网站| 国产网站免费在线观看| 欧美精品黑人性xxxx| 2020最新国产精品| 日韩免费av电影| 一级中文字幕一区二区| 色8久久影院午夜场| 91成人免费看| 国产精品入口麻豆九色| 免费在线观看的电影网站| 国产福利精品在线| 成人黄色网址在线观看| 国产黄色免费在线观看| 国模吧一区二区三区| 国产精品综合网| 日本福利专区在线观看| 国产成人在线视频| 91蝌蚪porny九色| 久久大胆人体| 亚洲最大av网站| 日韩一区欧美一区| 国产精品va视频| 免费cad大片在线观看| 欧美精选一区二区| 久久精品国产68国产精品亚洲| 波多结衣在线观看| 在线观看中文字幕亚洲| 奇米四色…亚洲| 日本高清在线观看wwwww色| 成人激情av网| 国产情人综合久久777777| 一区二区视频欧美| zzzwww在线看片免费| 国产一区二区三区四区五区3d| 邻家有女韩剧在线观看国语| 欧洲精品一区二区三区久久| 91豆麻精品91久久久久久| japansex久久高清精品| 正在播放精油久久| 日韩一区二区精品| 一区在线免费| 日本亚洲欧美| 国产精品99久久久久久人| 欧美国产综合一区二区| 国产不卡精品在线| 国产91在线免费| 亚洲国产精品嫩草影院久久| 婷婷综合在线观看| 中文在线观看免费| jizz性欧美2| cao在线视频| 日韩电影免费| 理论视频在线| 久久精品美女视频网站| 国产91高潮流白浆在线麻豆| 天堂在线中文网官网| 狠狠干视频网站| 中文字幕视频一区二区在线有码| 成人午夜精品在线| av日韩一区| av一级二级| 91嫩草在线视频| 欧美日韩综合一区| 在线看片欧美| 日本不卡影院| 免费国产成人看片在线| 精品国产欧美成人夜夜嗨| 国产清纯美女被跳蛋高潮一区二区久久w| 六月丁香久久丫| 自拍偷拍亚洲欧美日韩| 天天久久人人| 欧美精品一区男女天堂| 91在线免费看片| 日韩av在线播放不卡| 国产日本视频| 久久琪琪电影院| 亚洲一二三级电影| 欧美三区不卡| 2024最新电影免费在线观看| mm131午夜| 久久夜色精品国产欧美乱| 国产精品久久久久国产精品日日| 日韩欧美在线中字| 污视频网站在线免费| 久久精品噜噜噜成人av农村| 亚洲国产精品123| 亚洲天堂日韩电影| 亚洲精品你懂的| av成人天堂| 久久精品嫩草影院| videoxxxx另类日本极品|