LLM 智能體訓練 “又貴又慢”?阿里提出Tree-GRPO 用樹搜索砍 3/4 成本 精華
智能體人工智能的夢想遭遇瓶頸
我們正站在計算領域新時代的風口——智能體人工智能(Agentic AI)時代。這個夢想簡單卻意義深遠:大語言模型(LLMs)不僅能響應我們的查詢,還能主動代表我們實現目標。我們設想這樣的智能體:它們能研究復雜主題、規劃精密的旅行行程、調試代碼,并通過與世界的動態多步交互管理我們的數字生活。
在過去一年里,強化學習(Reinforcement Learning, RL)一直是推動我們邁向這一未來的核心引擎。通過讓模型從“試錯”中學習,并以獎勵為引導,我們見證了模型掌握了靜態模仿學習無法實現的復雜推理能力。
但當我們試圖將這些智能體從“單步任務”(如解決一道數學題)推向混亂、開放的“多輪交互場景”時,卻迎面撞上了一個殘酷的現實:當前訓練這些智能體的方法效率極低,且受限于兩個相互關聯的根本性問題,這使得發展陷入停滯:
- 極致低效問題(高昂成本):訓練智能體需要讓其“展開軌跡”(rollout)——即執行一整套動作以完成任務。當前方法需要采樣數千條獨立的完整軌跡,這一過程消耗的計算資源(tokens、API 調用、時間)堪稱天文數字。成本之高,使得構建和迭代高性能智能體的能力僅掌握在少數資金雄厚的實驗室手中。
- 獎勵盲區問題(稀疏監督):在多輪任務中,智能體可能需要執行數十個步驟——思考、搜索、觀察、再思考。但反饋往往只在任務最終階段出現:“你找到了正確答案”(正向獎勵)或“你失敗了”(零獎勵)。這個單一、稀疏的信號無法說明“在之前數十個步驟中,哪些是出色的決策,哪些是失誤”。模型本質上是“蒙眼學習”,導致訓練不穩定,且常常學會“無用的捷徑”而非穩健的問題解決策略。
這種“成本高昂”與“監督稀疏”的雙重困境已成為行業瓶頸。如果訓練智能體的過程本身既緩慢、昂貴又不精確,我們又如何構建下一代復雜的人工智能體?
來自廈門大學、阿里巴巴集團和南方科技大學的研究人員發表了一篇具有突破性的新論文——《面向大語言模型智能體強化學習的樹搜索方法》(Tree Search for LLM Agent Reinforcement Learning),為這一問題提供了強大而簡潔的解決方案。他們提出了一種新方法:基于樹的組相對策略優化(Tree-based Group Relative Policy Optimization, Tree-GRPO),從根本上重新思考了強化學習的訓練流程。通過將低效的線性“鏈”轉化為智能的、分支式的“樹”,該技術不僅效率大幅提升,還能自然地將稀疏的結果獎勵轉化為我們迫切需要的、逐步式的豐富過程信號。
這并非簡單的增量改進,而是一場范式革命——它可能開啟智能體人工智能的下一波浪潮。讓我們深入探究。
當前方法的缺陷:“鏈”的桎梏
要理解 Tree-GRPO 的精妙之處,首先需要認識到當前主流方法——基于鏈的軌跡展開(chain-based rollouts)——的嚴重局限性。
想象一下,你試圖教一個人工智能體穿越復雜的迷宮尋找一塊奶酪,而它能獲得的唯一反饋只有最終的“找到奶酪”或“未找到奶酪”。
基于鏈的方法就像“派100個獨立的探索者進入迷宮”:每個探索者從起點出發,自主選擇一系列轉彎方向,最終要么找到奶酪,要么走進死胡同。
這種方法的缺陷顯而易見:
首先,高度冗余。如果迷宮的前5個轉彎是一條無分支的通道,那么100個探索者都會獨立走一遍這條通道。你在計算資源和時間上的投入,都耗費在了“重復執行相同初始步驟”上——這正是“高昂成本”問題的核心。每一次“軌跡展開”都是一條完整、昂貴的“思考-行動-觀察”(Thought-Action-Observation)循環鏈。
其次,反饋對學習“路徑”幾乎無用。如果第57號探索者經過30步找到奶酪,而第58號探索者經過28步失敗,我們無法知道“第57號探索者到底做對了什么”:是第3步的轉彎?第17步?還是第29步?最終的獎勵信號會平等地作用于鏈中的每一個步驟——出色的決策和愚蠢的失誤得到的“credit(功勞)或blame(過錯)”完全相同。這就是“稀疏監督”:模型難以將“成功/失敗”歸因于特定決策,導致訓練極不穩定且效率低下。甚至可能學會“偏好較短但失敗的路徑”(只因耗時更少),而非嘗試更長、更復雜但可能成功的路徑。
這正是強化學習中長時程任務(long-horizon tasks)的核心挑戰:隨著步驟數量的增加,單個動作與最終結果之間的關聯會呈指數級減弱。標準強化學習方法難以彌合這種“時間信用分配差距”(temporal credit assignment gap)。
那么,如何解決這一問題?如果我們不派100個獨立探索者,而是派一個“協同合作的團隊”呢?
新范式:通過 Tree-GRPO 從每一個“岔路口”學習
Tree-GRPO 的研究者提出了一個簡單卻深刻的問題:為何要浪費時間重復探索相同路徑?如果能共享探索過程,并從每個決策點實時學習,會怎樣?
這正是從“鏈”到“樹”的理念轉變。
回到迷宮的例子:Tree-GRPO 的方法就像“派一個保持實時溝通的探索團隊”。團隊先一起走過初始通道(執行共享的“前綴”步驟),當遇到第一個岔路口時,他們會分成兩組:
- A組向左走;
- B組向右走。
他們繼續探索:A組遇到下一個岔路口時再次分組。最終,B組的某個子團隊找到了奶酪——這個成功信號會立即向上“匯報”。
此時,神奇的事情發生了:在第一個岔路口,我們獲得了極具價值的信息——“向右走的路徑最終成功,而向左走的路徑沒有”。我們在“決策發生的步驟”上,直接創建了一個偏好信號(preference signal)。

大語言模型多輪智能體強化學習中基于鏈和基于樹的采樣策略對比。樹結構具有兩大優勢:(i)更低的軌跡展開成本(無論是 tokens 還是工具調用);(ii)更高的性能。
這正是 Tree-GRPO 的核心思路:它用“樹搜索過程”替代了“獨立的鏈式采樣”,生成具有“共享前綴”的交錯軌跡。正如論文首圖所強調的,這帶來了兩大突破性優勢:
- 更低的軌跡展開成本:通過共享初始步驟(樹的“主干”),在生成同等數量的多樣化軌跡時,tokens 和工具調用的總消耗量大幅減少——用更少的成本實現了更多的探索。
- 通過過程信號實現更高性能:樹結構本身成為了“學習工具”。每一個分支點都是“比較機會”:通過將最終結果獎勵從“樹葉”反向傳播到“樹干”,我們可以比較“兄弟分支”的質量。這一過程將“單一稀疏的結果獎勵”轉化為“豐富的細粒度過程監督信號”(process supervision signals)。模型不僅學習“最終答案是什么”,更學習“在每個步驟中如何做出更好的決策以達成目標”。
這種簡潔的設計同時解決了智能體強化學習的兩大核心問題。但在實際中,它是如何實現的?讓我們揭開其技術面紗。
技術深度解析:Tree-GRPO 的內部機制
Tree-GRPO 的真正創新在于幾個關鍵設計決策——這些決策讓“樹搜索用于大語言模型智能體訓練”變得切實可行且高效。
“智能體步驟”:完美的樹節點定義
此前,將樹搜索用于大語言模型訓練的嘗試,往往將“樹節點”定義在極細的粒度上(如單個 token 或一個句子)。雖然這種方式靈活性最高,但并不適合智能體任務——智能體的“決策”并非在 token 層面做出,而是在“動作層面”。
Tree-GRPO 的研究者提出了一個關鍵洞見:對于智能體任務,最具語義意義的單元是完整的思考-行動-觀察(Thought-Action-Observation, TAO)循環。
因此,在 Tree-GRPO 中,樹的每個節點都代表一個完整的智能體交互步驟。

不同層級下基于鏈和基于樹的軌跡展開對比。左:基于鏈的軌跡展開;中:節點對應 tokens/句子的樹搜索;右(本文方法):節點對應完整智能體步驟的樹搜索。
這一設計堪稱精妙:它讓“搜索樹的結構”與“智能體的實際決策過程”完全對齊。當模型從“兩個分支的偏好對比”中學習時,它學習的是“偏好某一完整思考過程及后續動作”,而非“偏好某一不完整的想法或句子”。這提供的學習信號遠比“對比不完整內容”更清晰、更穩定,同時也讓“成本約束”(無論是 tokens 還是工具調用數量)變得明確且可控。
正如論文所述,軌跡展開過程采用“初始化-再擴展”(initialize-then-expand)策略,適用于并行化大語言模型推理引擎:
- 初始化:針對給定任務提示,生成 M 條獨立的完整軌跡(鏈),作為 M 棵獨立樹的初始“主干”。
- 采樣與擴展:迭代地從現有樹中選擇節點,將“從根節點到該節點的上下文”作為新提示,由大語言模型生成從該節點開始的后續完整軌跡,在樹上創建新分支。對 N 個節點重復 L 次這一過程,最終生成豐富、多樣的分支路徑。
這種實用的實現方式,能夠高效生成大量相關樣本,為下一個關鍵創新——“優勢估計”(advantage estimation)奠定基礎。
雙基線的力量:樹內優勢與樹間優勢
現在,我們有了“布滿分支軌跡的樹”,每條軌跡的終點都帶有“結果獎勵”。如何將這種結構轉化為“學習信號”?
Tree-GRPO 基于組相對策略優化(Group Relative Policy Optimization, GRPO) 構建——該技術不通過“獨立的評論者模型”(如 PPO 中的 critic)估計“動作優勢”,而是通過“將動作與一組其他候選動作的平均獎勵對比”來計算。核心問題是:“該選擇哪個‘組’作為對比基準?”
Tree-GRPO 巧妙地定義了兩個不同的“對比組”,構建出穩健且穩定的學習目標:
- 樹內優勢(Intra-Tree Advantage):這是“過程監督”的核心。對于任意一條軌跡(從根節點到葉節點的路徑),其優勢通過“與同一棵樹內的其他軌跡對比”來計算——這正是“步驟級偏好信號”的來源。在某個分支點,“最終獲得高獎勵的路徑”相對于“最終獲得低獎勵的兄弟分支”,會具有正向優勢。論文證明,這一目標在數學上等價于“執行步驟級直接偏好優化(Direct Preference Optimization, DPO)”,但無需“手動構建偏好對”——它是一種從“樹結構”中自然涌現的“隱式偏好學習機制”。
- 樹間優勢(Inter-Tree Advantage):雖然樹內優勢擅長“細粒度學習”,但穩定性不足——單棵樹的軌跡數量可能很少,導致“平均獎勵”作為基準的可靠性較低。為解決這一問題,Tree-GRPO 還會“將每條軌跡與‘同一提示下生成的所有樹的所有軌跡’對比”,計算其優勢。這提供了一個更穩定的“全局基準”。

Tree-GRPO 訓練流程概述。軌跡展開以“樹搜索”方式進行,每個節點對應一個完整的思考-行動-觀察步驟。組相對優勢在“樹內”和“樹間”兩個層面進行估計。Tree-GRPO 通過“樹結構”構建“步驟級過程監督信號”,且軌跡展開成本更低。
任意給定軌跡的“最終優勢估計值”,即為其“樹內優勢”與“樹間優勢”之和:

驚人結果:用“少得多的成本”實現“多得多的價值”
Tree-GRPO 在11個數據集上的實證評估結果令人驚嘆。實驗一致表明,這種“基于樹的方法”優于傳統“基于鏈的方法”——尤其在“關鍵場景”(長時程、低預算任務)中優勢更為顯著。
在低預算、多跳場景中的絕對優勢
最顯著的結果出現在“多跳問答(multi-hop QA)任務”中——這類任務需要復雜的多輪推理和工具使用,正是“基于鏈的強化學習”最薄弱的領域。

單跳問答和多跳問答的整體性能,包含各數據集的精確匹配(EM)分數。最佳結果以粗體標注。
觀察小模型的表現,差異堪稱天壤之別:對于 Qwen2.5-1.5b 模型(通義千問2.5系列1.5B參數模型),在多跳任務中,標準的“基于鏈的 GRPO”幾乎無法超越基線模型(baseline)——它根本無法學習復雜的推理能力。相比之下,Tree-GRPO 實現了高達69%的相對提升。這一結果表明:Tree-GRPO 提供的“過程監督”,對于“教小模型掌握復雜智能體行為”至關重要。
這一發現具有關鍵意義:通過 Tree-GRPO 這類更智能的訓練方法,我們可以在“更小、更高效、更易獲取的模型”中解鎖強大的智能體能力。若能高效訓練,你可能無需“超大前沿模型”就能構建實用的智能體。
前所未有的樣本效率
Tree-GRPO 優越性的最有力證據,體現在“受限預算下的性能”上。研究者測試了兩種方法在不同“軌跡展開預算”(從每個提示2次到16次)下的表現。

不同訓練預算下的性能(訓練預算定義為“每個提示對應的完整智能體軌跡展開次數”)。基準模型為 Qwen2.5–3b(通義千問2.5系列3B參數模型)。最佳結果以粗體標注。
表格中的結果令人震驚:
在每個提示僅2次軌跡展開的高度受限預算下,基于鏈的方法在多跳任務中基本無法學習。而 Tree-GRPO 則表現出色,實現了112%的相對提升。
更令人印象深刻的是:使用“每個提示4次軌跡展開”的 Tree-GRPO,其性能超過了使用“每個提示16次軌跡展開”的基于鏈的方法。請仔細思考這一結果:它用“四分之一的計算成本”實現了“更優的性能”。
這并非單純的學術成果——它具有深遠的實際意義:開發和微調高性能大語言模型智能體的成本可能降低至原來的1/4,速度提升4倍,這將大幅降低“研究者和企業參與智能體開發”的門檻。一篇研究論文竟能改變整個領域的“經濟成本結構”。
超越數字:為何 Tree-GRPO 能培養“更聰明的智能體”
Tree-GRPO 的價值遠不止“性能指標的提升”——它從根本上改變了“智能體的學習內容”。
由于“基于鏈的強化學習”依賴稀疏獎勵,難以進行“信用分配”,因此往往會導致“智能體偏向選擇較短軌跡”:模型會“求穩”,避免“長而復雜的推理鏈”——因為“在漫長步驟中犯錯的風險太高”,而最終獎勵的不確定性又太大。這導致智能體“輕易放棄”或“走不合理的捷徑”。
而 Tree-GRPO 憑借其“內置的過程監督”,徹底改變了這一動態:通過獎勵“優質的中間決策”,它鼓勵智能體“探索更長、更復雜的推理路徑”。論文通過“訓練過程中獎勵與動作數量的分析”,為這一“行為轉變”提供了證據。

基于樹和基于鏈的強化學習在獎勵和動作數量上的對比。
如圖所示,用 Tree-GRPO 訓練的智能體,不僅“最終獎勵更高”,還學會了“執行更多動作”(即調用更多工具)。它不再是“猜測答案”,而是在學習“探索的過程”——培養了解決“真正難題”所需的“堅持性”。
這一區別至關重要:我們需要的不是“擅長匹配最終答案模式”的智能體,而是“擅長‘找到答案’這一過程”的智能體。通過提供“過程級監督”,Tree-GRPO 直接優化了“這種更理想、更穩健的智能形式”。
你正在研究哪些“需要多步探索過程才能找到答案”的問題?
結論:未來是“分支式”的
《Tree Search for LLM Agent Reinforcement Learning》是一篇罕見的“理論簡潔優美、實踐變革性強”的研究論文。它用“一個強大的想法”(將線性鏈轉化為分支樹),同時解決了“智能體人工智能的成本與監督雙重困境”。
通過這一創新,Tree-GRPO 為“智能體開發”指明了清晰的前進方向:用更低的成本、更快的速度,構建更強大的智能體。
核心要點:
- 問題所在:用傳統“基于鏈的強化學習”訓練大語言模型智能體,成本極高,且在長時程任務中效果差——根源是“采樣冗余”和“獎勵稀疏”。
- 解決方案:Tree-GRPO 用“樹搜索采樣”替代“鏈式軌跡展開”,軌跡共享“公共前綴”;樹的每個節點對應一個完整的“思考-行動-觀察”步驟。
- 雙重優勢:這種樹結構(1)效率極高,大幅降低 tokens 和工具調用成本;(2)自然生成“過程監督”——通過對比不同分支,無需額外標注即可獲得“步驟級偏好信號”。
- 實驗結果:Tree-GRPO 顯著優于基于鏈的方法,尤其在“小模型”和“低預算”場景中;它能用“四分之一的計算成本”實現“更優性能”。
- 深遠影響:這項工作不僅提升了性能,更培養了“更聰明、更具堅持性的智能體”——它們學習的是“問題解決的過程”;它讓“復雜智能體人工智能的開發”變得對所有人更易獲取。
構建“真正自主、實用的人工智能體”是一段漫長的旅程,充滿復雜挑戰。但像 Tree-GRPO 這樣的創新,讓前進的道路變得清晰。未來并非“一條直線”,而是“分支不斷擴展、可能性持續增多的樹”。而現在,我們終于有了“從每一個分支中學習”的方法。
你怎么看?這是否是“讓智能體人工智能開發民主化”的突破性成果?歡迎在評論區分享你的想法。
參考文獻
Ji, Y., Ma, Z., Wang, Y., Chen, G., Chu, X., & Wu, L. (2025). Tree Search for LLM Agent Reinforcement Learning. arXiv:2509.21240v1.
本文轉載自AIGC深一度,作者:tangbasky

















