国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型推理新范式!清華&螞蟻:用編程思維來思考,用自然語言來表達

人工智能 新聞
CodePlan 的提出為大模型推理能力發展提供了一個新思路。

該論文的第一作者是清華大學計算機系研究生溫佳鑫,螞蟻技術研究院副研究員關健為共同第一作者。

大模型應該以什么形式進行推理?自然語言是表示推理路徑的最佳方案嗎?

2024 年 9 月,OpenAI 攜 o1 模型吹響推理革命的號角,以驚人的思維鏈長度刷新認知邊界。在這場技術革命中,中國力量迅速崛起:DeepSeek R1 以極低的訓練成本成功復現 o1 性能,引發全球熱議。然而,在振奮的結果背后,上述「靈魂拷問」似乎并沒有得到解答。

事實上,在這場推理大潮來臨之前,本文研究團隊就一直在圍繞這些問題進行思考和探討。自然語言形式的推理范式雖然從思維鏈開始就主導了推理模型的構建,其本身卻存在著不可忽視的缺陷:推理過程中常見邏輯斷裂、焦點漂移、冗余重復等系統性問題。這就像一名博學卻缺乏系統訓練的學生,知識有余而邏輯不足。 

研究團隊認為這些問題源自自然語言的雙面性:表達自由靈活,卻難以傳遞嚴謹的結構化思維。更本質的挑戰在于:文本中蘊含的推理結構往往被埋藏在自然語言冗余的表達形式之下。這些隱含的邏輯模式難以被模型有效捕捉和復用。對于參數量較小的模型而言,這一困境更為嚴峻。

為應對這一困境,研究團隊在 ICLR 2025 上提出了 CodePlan 方法。這一創新框架將「代碼形式的規劃」(Code-Form Planning)引入推理過程,讓大模型先用「編程思維」來思考,再用自然語言來表達

得益于編程語言的嚴謹特性,代碼規劃能夠精確構建包含條件分支、循環迭代、函數調用等結構的推理藍圖,就像為大模型裝上了一個邏輯嚴密的「操作系統」。更有趣的是,由于編程語言存在海量的數據,這種方法無需繁重的人工標注,能夠自動從已有數據中提取隱含的規劃信號;并且由于已有代碼覆蓋了各個領域的問題,CodePlan 除了解決復雜推理問題外,還可以很好地泛化到其它任務上。

在 13 個具有挑戰性的基準測試中,CodePlan 實現了平均 25.1% 的相對性能提升。目前,研究團隊已開源了 200 萬條包含代碼形式規劃的推理數據,以期推動這一方向的研究。

圖片

  • 論文標題:CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
  • 論文地址:https://arxiv.org/pdf/2409.12452
  • Github: https://github.com/thu-coai/CodePlan
  • Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan

一、推理能力的阿喀琉斯之踵

在大模型推理能力突飛猛進的表象之下,隱藏著一個被忽視的現象:隨著研究者不斷追逐更大的參數規模、更龐大的數據量,模型的「思維熵增」現象反而愈發嚴重。這種反常現象主要表現在兩個方面:一是推理過度膨脹,即便是回答 「2+3=?」這樣的簡單問題,o1 模型也會生成長達 200 多個 token 的冗長思維鏈;二是推理不夠專注,在解決復雜問題時頻繁跳躍于不同思路之間,卻始終無法深入任何一個方向得出正確答案。

這一現象暴露出當前技術路線中一個根本性矛盾:自然語言固有的非結構化特性,與系統化推理所需的嚴謹規劃框架之間存在著難以調和的沖突

深入分析這一現象,研究團隊發現現有的推理模型主要依賴兩個步驟:首先通過自然語言形式隨機探索生成海量的推理路徑,然后借助強化學習算法從中篩選優質軌跡。這種方法雖然拓寬了推理的探索空間,卻像在茫茫沙漠中漫無目的地搜尋綠洲,缺乏有效的導航機制必然導致效率低下。更為致命的是,這種基于自然語言的自由推理方式難以沉淀出可復用的結構化知識,導致模型每次面對新問題時都需要從零開始探索。

因此,現有方法雖然培養了模型強大的直覺能力,卻忽視了人類思維最本質的特征 —— 通過高層規劃將零散知識系統化的能力。

圖片CodePlan 在 5 類核心推理任務上取得顯著提升。Vaniila: 不使用規劃的基線方法;Natural Language Plan:基于自然語言的規劃方法。

二、CodePlan:為大模型裝載結構化思維引擎

面對大模型推理能力的瓶頸,研究團隊提出了 CodePlan 框架,其核心創新在于引入「代碼形式規劃」(Code-Form Planning)作為思維的中間表征。

這一創新建立在對推理結構的精確表達之上。通過將編程語言的嚴謹結構引入推理過程,CodePlan 為大模型構建了一個可靠的「思維操作系統」。這個系統通過兩個層次來實現思維的結構化:先用 Python 風格的偽代碼勾勒出高層次的推理框架;再基于這個框架,系統性地展開具體推理步驟。

如下圖所示,這種基于代碼的表達方式具有四大核心優勢:

  1. 條件分支能力:通過 if 語句動態調整推理路徑,實現靈活的上下文適應;
  2. 循環迭代結構:利用 for 循環高效處理序列數據和重復操作;
  3. 模塊化工具:通過函數定義和調用,增強模型對工具的創建和使用能力;
  4. 層次化架構:通過變量定義、子任務分解和嚴謹的邏輯編排,支持復雜推理任務的模塊化分解。

圖片

相比傳統的自然語言規劃,CodePlan 的優勢突出。Python 代碼不僅能夠以更簡潔的方式傳遞規劃信息,而且這種表達方式在預訓練語料中分布更廣,使模型在訓練階段就已經建立起對代碼結構的深層理解。

這種與生俱來的「代碼素養」讓模型能夠更自然地生成和理解規劃信息,大大降低了學習成本。更重要的是,這種規劃方式展現出驚人的通用性——從數學推理到指令理解,從符號運算到開放式問題,都能構建出清晰的代碼形式規劃表示。

三、廣泛提升模型推理能力

為驗證 CodePlan 的效果,研究團隊構建了一套高效的規劃信息自動挖掘方法。如下圖所示,該方法包含兩個關鍵創新:首先通過代碼預訓練模型精準解析文本中潛藏的推理結構,將其轉化為顯式的偽代碼表示;其次設計了基于啟發式評分的動態過濾機制,確保所提取規劃的質量。

基于這一方法,團隊成功構建了一個包含 200 萬個「< 用戶提示,代碼規劃,回復 >」三元組的大規模數據集。 

圖片

訓練數據構建流程。

實驗結果令人振奮。研究團隊以 Mistral 和 Llama 為基座模型,在跨越數學推理、符號運算、指令理解、多跳問答和決策等五大領域的 13 個具有挑戰性的基準測試中進行了系統評估。

結果顯示,相比于直接從用戶指令生成推理步驟的基線方法(Vanilla)和使用自然語言形式規劃的傳統方法(PS Prompting),CodePlan 在所有任務上都實現了顯著提升。特別是在復雜度較高的任務上,性能提升更為明顯。例如,在 Last Letter 任務上,Mistral-7B 的準確率提升了超過 20 個百分點,展示出 CodePlan 在處理高難度推理問題時的獨特優勢。 

圖片

圖片

1. 任務越復雜,提升越顯著

深入分析實驗結果揭示了 CodePlan 一個令人矚目的特性:隨著任務復雜度的提升,其性能優勢愈發顯著。研究團隊以多跳問答任務為例進行了精細化分析,通過將數據集按推理步數(2 跳、3 跳、4 跳)劃分,清晰地展示了這一規律。

圖片

多跳問答任務的性能對比

如上圖所示,在相對簡單的 2 跳問題上,CodePlan 相比基線模型已有穩定提升;而在需要三次以上推理跳轉的復雜問題中,性能差距急劇擴大。特別是在最具挑戰性的 4 跳問題上,CodePlan 的優勢達到最大,這充分說明其在處理深層次推理時的卓越能力。

這種「難者愈強」的特性,正是源于 CodePlan 的結構化推理框架。通過將復雜推理過程分解為清晰的代碼步驟,模型能夠更好地把控長程依賴關系,避免了傳統方法在多步推理中常見的邏輯斷裂和注意力發散問題。

2. 更高效、更穩定的后訓練

研究團隊在探索 CodePlan 的訓練特性時,發現了另一個重要優勢:它為大模型的后訓練提供了一條更高效、更可靠的路徑。

圖片CodePlan 的訓練曲線

如上圖所示,在 GSM8K 數學推理和 MuSiQue 多跳問答這兩個具有代表性的任務上,CodePlan 展現出顯著的訓練優勢。傳統的后訓練方法(藍線)在訓練過程中表現出明顯的性能波動。相比之下,CodePlan(橙線)不僅實現了更快的性能提升,更重要的是保持了穩定的上升趨勢。

這一現象揭示了 CodePlan 的核心優勢:通過引入結構化的代碼規劃作為中間表示,它成功建立了一個更加普適的學習框架。這個框架能夠有效降低不同任務之間的表達差異,使得模型可以更專注于學習本質的推理模式,從而實現知識的高效遷移和穩定積累。這不僅提高了訓練效率,更為大模型能力的持續進化提供了可靠保障。

3. 案例分析:化繁為簡的結構化思維

讓我們來看看「數值比較」(9.8 和 9.11 誰更大)和「字母計數」(統計 strawberry 中字母 r 的出現次數)這兩個看似簡單,卻常常難倒模型的問題。

圖片

如上表所示,CodePlan 通過引入代碼形式的規劃,優雅地解決了這些問題。與之形成鮮明對比的是,沒有規劃輔助的模型往往給出模糊或錯誤的答案。它們要么直接下結論,要么陷入冗長卻不準確的解釋中,反映出缺乏系統化思維方法的局限。

這個對比表明:CodePlan 不是簡單地告訴模型「該做什么」,而是教會模型「如何思考」。通過將復雜任務分解為清晰的代碼步驟,CodePlan 為模型提供了一個可靠的問題解決范式。

結語:開辟大模型結構化思維新思路

CodePlan 的提出為大模型推理能力發展提供了一個新思路。這項創新通過將代碼形式規劃引入推理過程,成功解決了自然語言表達中的結構化缺陷;更重要的是,它開創了一種全新的方法論,為大模型注入了系統化的問題解決能力。通過開源 200 萬條規劃數據,研究團隊為整個社區貢獻了資源。在此基礎上,期待在金融、醫療等高要求場景中有更多激動人心的應用突破。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-11-24 19:31:41

機器學習神經網絡人工智能

2020-12-07 08:16:39

自然語言查詢數據庫數據庫查詢

2025-06-26 09:06:59

2023-10-11 12:32:53

AI模型

2023-08-01 13:09:42

代碼開發

2025-01-10 10:30:00

大模型統計評估

2025-05-16 08:44:01

2020-12-24 10:00:12

PythonPython基礎阿姆斯特朗數

2024-06-21 13:15:27

2013-07-16 10:08:51

MIT編程語言

2025-11-04 01:43:00

循環語言模型架構

2025-06-09 09:32:35

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-10-10 01:25:00

大模型訓練數據OpenAI

2024-12-12 09:00:00

2023-08-07 08:41:45

自然語言模型因果推理

2025-11-04 02:22:00

AgenticAI多智能

2021-03-26 06:00:37

編程語言CPU

2021-03-25 16:01:11

編程語言CPU機器語言

2017-10-19 17:05:58

深度學習自然語言
點贊
收藏

51CTO技術棧公眾號

亚洲成人精品久久久| 福利一区在线观看| 日韩一卡二卡三卡国产欧美| 69堂免费视频| 午夜在线精品偷拍| 海角国产乱辈乱精品视频| 日p在线观看| 国产欧美日产一区| 伊人天天久久大香线蕉av色| 国产成人1区| 精品国产一区二区三区久久久| 日本中文字幕在线2020| 亚洲欧美日本韩国| 国产深夜男女无套内射| 亚洲深夜激情| 国产精品女主播| 在线精品自拍| 亚洲深夜福利在线| 最新日本在线观看| 色综合久久久久久久| 污网站免费看| 久久影院视频免费| 97中文字幕在线| 蜜桃av一区二区三区电影| 成人午夜电影免费在线观看| 米奇777超碰欧美日韩亚洲| 久久久国产精彩视频美女艺术照福利| 91色在线看| 日韩欧美国产一区在线观看| 国产九九在线| 色哟哟在线观看一区二区三区| 米奇.777.com| 亚洲日本在线视频观看| 黄色片一级视频| av午夜精品一区二区三区| 一区二区三区四区视频在线| 免费看黄裸体一级大秀欧美| 国产精品一区二区a| 91亚洲国产高清| 国产在线观看不卡| 久久麻豆精品| 91美女高潮出水| 亚洲综合五月| 超碰97在线播放| 国产亚洲精品久久久久婷婷瑜伽| 99国产在线视频| 亚洲美女黄色| 欧洲精品在线一区| 美女视频黄久久| 成人短视频在线观看免费| 国产高清不卡一区二区| www.射射射| 国产精品人妖ts系列视频| 亚洲色图 在线视频| 亚洲国产高清在线观看视频| www.99com| 五月婷婷久久丁香| eeuss影院www在线观看| 日韩视频永久免费| 欧美日韩成人影院| 欧美激情一区二区三区久久久| 日韩a级大片| 国产自产女人91一区在线观看| 欧美成人午夜| 色综合久久av| 成人激情综合网站| 国产男小鲜肉同志免费| 午夜激情久久久| 日韩黄色影院| 亚洲天堂视频在线观看| 秋霞一区二区| 91社区国产高清| 日韩av在线播放中文字幕| 特大黑人娇小亚洲女mp4| 久久久久9999亚洲精品| 欧美变态xxxx| 欧美精品免费视频| 亚洲第一会所| 国产不卡av在线免费观看| 亚洲老妇激情| 亚洲伊人婷婷| 久久久精品免费免费| 一起操在线观看| 亚洲成人在线视频播放| 草草视频在线一区二区| 成人美女av在线直播| 日本成人在线不卡视频| 国模杨依粉嫩蝴蝶150p| 色噜噜狠狠成人中文综合| 欧美大胆成人| 国产精品国产三级国产专播精品人| 国产精品美女久久久| 国产日产欧美视频| 日本韩国一区二区| 亚洲狼人在线| 狠狠色综合色区| 久久久99久久精品欧美| 国产三级电影在线| 精品国模在线视频| 亚洲欧美亚洲| 欧在线一二三四区| 91精品国产综合久久福利| 欧州一区二区三区| 久精品国产欧美| 国产精品国产三级国产a| 在线不卡日本v二区707| 欧洲成人在线视频| 国产一区二区三区香蕉| 亚洲免费av一区二区| 亚洲性生活视频在线观看| 99久久精品国产亚洲精品| 女人帮男人橹视频播放| 欧美色综合久久| 亚洲精品蜜桃乱晃| 免费在线观看污污视频| 亚洲高清不卡在线| www.91精品| 在线观看欧美一区| 色哟哟在线观看一区二区三区| 日韩三级精品| 妞干网这里只有精品| 在线中文字幕一区| 激情五月综合| 日韩精品一区中文字幕| 精品第一国产综合精品aⅴ| 图片小说视频色综合| 日韩精品你懂的| 色多多国产成人永久免费网站 | 成年人网站在线| 国产精自产拍久久久久久| 国产色产综合产在线视频| 男女羞羞在线观看| 国产精品日韩高清| 五月婷婷激情综合| 国产欧美一区二区三区米奇| 亚洲乱码日产精品bd在线观看| 欧美一区二区三区在线| 欧美三级第一页| 中文在线√天堂| 国产精品观看在线亚洲人成网| 欧美经典一区二区| 午夜日韩影院| 一本久道综合色婷婷五月| 在线视频精品一| 国产精品99久久久久久久vr| 国内在线免费视频| 欧美精品七区| 欧美精品乱码久久久久久按摩| 精品9999| av中文字幕在线观看| 欧美久久久久久久| 日韩欧美一二三| 奇米精品一区二区三区四区| fc2ppv国产精品久久| 欧美性天天影院| 日韩一区二区在线看| 美女精品在线观看| 成人爽a毛片免费啪啪动漫| 水蜜桃亚洲精品| 日韩电影中文字幕一区| 九九**精品视频免费播放| 黄色在线观看www| 国产资源第一页| 日韩视频欧美视频| 国产欧美一区二区在线| 风间由美久久久| 99久久婷婷国产综合精品首页| 亚欧洲精品在线视频免费观看| 日韩一区二区三区视频在线观看 | 欧美挤奶吃奶水xxxxx| 成人软件网18免费视频| 欧美在线日韩在线| 亚洲成av人在线观看| 中文字幕一区二区精品区| www 日韩| 一区二区日本伦理| zzijzzij亚洲日本成熟少妇| 久久久久久9999| 国产精品亚洲综合在线观看| 亚洲爆乳无码专区| 国外成人在线直播| 欧美性高潮在线| 麻豆91在线播放免费| 精品69视频一区二区三区| 国产成人精品无码播放| 国产精品日韩一区| 欧美一区二区私人影院日本| 国产盗摄女厕一区二区三区| 麻豆国产一区| 天堂在线中文字幕| 亚洲一区三区电影在线观看| 国产亚洲精品成人av久久ww| 国产精品乱码人人做人人爱| 亚洲精品二区三区| 亚洲精品动漫| 一级一片免费视频| 中文字幕一区综合| 8x海外华人永久免费日韩内陆视频| 91电影在线观看| 美国一区二区三区在线播放|