在WAIC耳朵聽出繭子的「智能體」,是時候系統學一下了
在今年的世界人工智能大會(WAIC)上,智能體是絕對的主角,從 C 端產品到企業級應用,每家參展的 AI 廠商似乎都要提一下在智能體方向的布局。
這其實揭示了一個重要轉變:人們不再把 AI 大模型當成一個單純的聊天機器人,而是希望它能像人一樣主動思考、制定計劃、使用各種工具來完成任務,這是接下來大模型走向應用的重要方向。
看來,對于 AI 從業者來說,是時候系統了解一下「智能體」了。
剛好,我們找到了一篇寫得非常全面的博客。博客作者是 Netflix 高級研究科學家、萊斯大學博士 Cameron R. Wolfe。他從最基礎的 LLM 說起,逐步引入工具、推理、自主規劃的能力,深度分析了 AI 智能體的底層邏輯。

- 博客地址:https://cameronrwolfe.substack.com/p/ai-agents
以下是博客的詳細內容。
LLM及其能力
標準LLM的輸入輸出特征
標準 LLM 的功能如上所示。給定一個文本提示,LLM 生成一個文本響應。從許多方面來看,LLM 的通用性是其最大的優勢之一。
這一部分將概述如何通過利用這種文本到文本的結構,將推理或與外部 API 交互等新能力集成到 LLM 中。現代 AI 智能體的高級能力在很大程度上是建立在這一基礎功能之上的。
工具使用
隨著 LLM 逐漸變得更強大,如何快速教會它們集成并使用外部工具已成為 AI 研究中的熱門話題。舉些例子,計算器、日歷、搜索引擎、代碼解釋器等有用工具均可以與 LLM 集成。
簡單來說,LLM 顯然并不是解決所有任務的最佳工具。在很多情況下,執行任務都存在更簡單、更可靠的工具。但考慮到 LLM 在規劃和協調方面的優勢,可以輕松地教會它們使用這些基本工具,并運用工具作為解決問題過程的一環。
LLM 使用工具解決問題的基本思想,是賦予 LLM 將子任務提交給更專業或更強大的工具的能力。LLM 充當「大腦 / 指揮官」,協調不同的專業工具協同工作。
1、針對工具使用的微調
早期的研究采用了針對性的微調,教會 LLM 如何利用一系列固定的工具,只需精心調整訓練示例,將對某個工具的函數調用直接插入到 LLM 的 token 流中,如下圖所示。
大語言模型工具調用的結構
在訓練過程中,這些工具調用與其他任何 token 類似 —— 它們都只是文本序列的一部分。LLM 在推理時(inference time)生成工具調用時,將按照以下步驟處理它:
1. 停止生成 token。
2. 解析工具調用(即確定正在使用的工具及其參數)。
3. 使用這些參數調用該工具。
4. 將工具返回的響應添加到 LLM 的 token 流中。
5. 繼續生成 token。
調用的工具可以在 LLM 生成輸出時實時處理,工具返回的信息將直接添加到模型的上下文中。
2、基于提示的工具使用
教會 LLM 通過微調來調用工具通常需要一個大規模的訓練數據集,通常還需要人工注釋。隨著 LLM 能力的提升,后續的研究強調了基于上下文學習的方法來實現工具使用。
為什么我們要選擇對一個語言模型進行微調,而不是簡單地在模型的提示詞中解釋可供使用的工具呢?

Hugginggpt與Gorilla工作將LLM與工具集成。
基于提示詞的工具使用減少了人工干預,使得我們能夠大幅增加 LLM 可訪問的工具數量。
例如,該領域的后續研究將 LLM 與數百個甚至數千個工具進行了集成,如上圖所示。為了實現這一點,可以將每個工具視為一個通用 API,并在模型的提示中提供相關 API 的架構作為上下文。這種方法使得 LLM 能夠通過標準化結構與互聯網上的任意 API 進行集成,從而使得無數的應用成為可能。例如,查找信息、調用其他 ML 模型、預訂假期、管理日歷等。
3、模型上下文協議(Model context protocol ,MCP)
MCP 由 Anthropic 提出,是一個受歡迎的框架,擴展了讓 LLM 與任意工具互動的理念。
簡單來說,MCP 將外部系統將上下文提供給 LLM 提示的格式進行了標準化。為了應對復雜問題,LLM 需要隨著時間的推移集成更多的外部工具。為了簡化這個過程,MCP 提出了一種標準格式,并允許開發者創建預先建立的集成(稱為 MCP 服務器),可以被任何 LLM 調用,以連接各種自定義數據源,如下圖所示。

MCP的整體架構示意圖
4、工具使用的局限性
盡管工具使用具有強大的能力,但仍受到 LLM 推理能力的限制。為了有效地利用工具,LLM 必須具備以下能力:
- 將復雜問題分解為較小的子任務。
- 確定應使用哪些工具來解決問題。
- 可靠地構建對相關工具的調用,并確保格式正確。
復雜的工具使用要求 LLM 成為一個高效的指揮官,在很大程度上依賴于模型的推理能力和整體可靠性。
推理模型
鑒于智能體特征與推理之間的關系,推理能力多年來一直是 LLM 研究的核心焦點。
有關當前推理研究的更深入概述,請參閱以下博客:

- 博客鏈接:https://cameronrwolfe.substack.com/p/demystifying-reasoning-models
為了本文完整性,我們將在這里簡要介紹推理模型背后的關鍵思想。
1、思維鏈(Chain of Thought, CoT)
當 LLM 出現時,最常見的批評之一是這些模型無法執行復雜的推理。然而,關于思維鏈(Chain of Thought,CoT)的研究揭示了,普通的 LLM 實際上比我們最初意識到的更擅長推理。
CoT 提示詞背后的思想很簡單。我們并不是直接請求 LLM 給出最終的輸出,而是要求它在給出最終輸出之前,先生成一個推理過程或解釋,如下圖所示。
這種方法通過引導 LLM 進行逐步推理,幫助其在解決問題時更加系統地展示思維過程,從而提升其推理能力。通過展示思維鏈,模型能夠更好地理解問題的各個方面,從而得出更為準確和合理的結論。

CoT提示詞使LLM輸出推理過程
有趣的是,這種方法顯著提高了普通 LLM 在推理任務中的表現。如果我們能找到正確的方法來引導這些能力,LLM 實際上是能夠在一定程度上進行復雜推理的。
2、推理模型
CoT 提示詞非常有效,是所有現代 LLM 的核心部分;例如,ChatGPT 通常默認會在其回答中輸出 CoT。
然而,這種推理方法也有些過于簡單。整個推理過程圍繞 LLM 生成的 CoT 展開,并且沒有根據待解決問題的復雜性進行動態調整。

最近的研究引入了新的訓練策略,創造了專門用于推理的 LLM(即推理模型),例如 DeepSeek。與標準 LLM 相比,這些模型在解決問題時采取不同的方式 —— 它們在給出問題答案之前,會花費不定量的時間進行「思考」。

DeepSeek 引入新的思考方式
推理模型的思考過程與標準的思維鏈條類似,但推理模型的 CoT 通常比標準 LLM 的長得多(可以有數千個 token),并且傾向于表現出復雜的推理行為(例如回溯和自我修正),還可以根據問題的難度動態調整 —— 更難的問題需要更長的 CoT。
使推理模型成為可能的關鍵進展是通過可驗證獎勵強化學習(Reinforcement Learning from Verifiable Rewards,RLVR)進行的大規模后訓練,如下圖所示。
如果我們擁有一個包含可驗證問題(例如數學或編程)標準答案的數據集,就可以簡單地檢查 LLM 生成的答案是否正確,并利用這一信號來通過強化學習訓練模型。推理模型自然就會通過強化學習驅動的自我進化來生成長思維鏈,以解決可驗證的推理問題。

RLVR工作原理概述
我們探索了LLM在沒有任何監督數據的情況下發展推理能力的潛力,重點關注它們通過純強化學習過程實現自我進化。
3、推理軌跡
總之,通過使用 RLVR 進行大規模后訓練的推理模型,會改變標準 LLM 的行為,如下圖所示。
推理模型不是直接生成輸出,而是首先生成一個任意長度的思維鏈,該鏈分解并解決推理任務 —— 這就是「思考」過程。我們可以通過控制推理軌跡的長度來改變模型思考的深度。
例如,OpenAI 的推理模型 o 系列提供了低、中、高三個不同級別的推理深度。

推理模型的輸入輸出特征
盡管模型在給定提示詞后仍然生成一個單一的輸出,但推理軌跡隱式地展示了多種高級行為;例如,規劃、回溯、監控、評估等。
4、推理 + 智能體
一個足夠強大的 LLM,能夠根據指令做出規劃并有效地對其指令進行推理,應該具備分解問題、解決子任務,并最終自行得出解決方案的完整能力。為 LLM 提供更多的自主性,并依賴它們的能力 —— 而不是人工干預 —— 來解決復雜問題,是智能體系統的核心思想。
為了更清楚地說明智能體的概念,接下來將討論一個可以用來設計這類系統的框架。
ReAct 框架
ReAct(REasoning and ACTion)是第一個被提出的通用框架之一,旨在通過 LLM 智能體自主地分解并解決復雜問題。
我們可以將 ReAct 視為一個由 LLM 驅動的順序的、多步的問題解決過程。在每一個時間步驟 t,LLM 整合任何可用的反饋,并考慮問題的當前狀態,從而使其能夠有效地推理并選擇未來的最佳行動方案。
為智能體創建框架
在某個特定的時間步 t,我們的智能體從環境中接收一個觀察值 o_t?;谶@個觀察,智能體將決定采取某個行動 a_t,這個行動可以是中間步驟 —— 例如,通過搜索網絡來找到所需的數據 —— 或者是解決當前問題的最終行動。
我們定義智能體用于生成這一行動的函數為策略 π。該策略將上下文(智能體之前的行動和觀察的串聯列表)作為輸入,預測下一個行動 a_t 作為輸出,可以是確定性或者隨機性的。
如下圖所示,這個觀察與行動的循環將持續進行,直到智能體輸出最終行動。

智能體的觀察-行動循環
ReAct 框架對上述觀察 - 行動循環進行了一個關鍵修改。其擴展了行動空間,允許語言作為行動的一種形式,這樣智能體就可以選擇生成文本輸出作為行動,而不是采取傳統的行動。
換句話說,智能體在輸出行動之外可以選擇「思考」。

ReAct 框架
顧名思義,ReAct 的主要動機是找到推理與行動之間的平衡。類似于人類,智能體應該能夠思考并規劃它在環境中采取的行動,即推理與行動之間具有共生關系。
智能體是如何思考的?
傳統的智能體行動空間是離散的,并且大多數情況下相對較小。例如,一個專門用于問答的智能體可能只有幾種行動選項:
* 執行 Google 搜索以檢索相關網頁。
* 從特定網頁中抓取相關信息。
* 返回最終答案。

智能體的行動空間示例
相比之下,語言的空間幾乎是無限的。
因此,ReAct 框架要求使用強大的語言模型作為基礎。為了生成對性能有益的有用思考,智能體系統的 LLM 后臺必須具備先進的推理和規劃能力。
1、思維模式
智能體可以生成的常見實用思維模式包括:分解任務、創建行動計劃、跟蹤進展,或僅僅輸出來自 LLM 隱式知識庫的(與解決問題相關的)信息。

智能體利用其思考能力明確描述問題解決方案,然后執行計劃并同時監控執行情況。
在上述兩個例子中,智能體明確寫出了解決問題時需要執行的下一步操作;例如,「接下來,我需要……」或「我需要搜索……」。

給ReAct智能體的少樣本示例
在大多數情況下,智能體產生的思考模仿了人類解決問題的過程。
事實上,ReAct 實驗通過提供任務解決軌跡的上下文示例(即,行動、思考和觀察)來指導智能體解決問題。這些上下文是人類用來解決類似問題的過程。以這種類型提示詞訓練的智能體更有可能采用與人類相似的推理過程。
我們讓語言模型自行決定思維和行動不同出現時機。
2、智能體在什么時候應當思考?
根據我們所解決的問題,ReAct 框架可以進行不同的設置。
對于推理密集型任務,思考通常與行動交替進行 —— 我們可以將智能體硬編碼,使其在每個行動之前生成一個單獨的思考。然而,智能體也可以被賦予自我判斷是否需要思考的能力。對于需要大量行動的任務(決策任務),智能體可能會選擇在其問題解決軌跡中較少地進行思考。
具體應用案例

在 ReAct 論文中,考慮了 ReAct 框架的兩個應用案例:
1. 知識密集型推理:使用 ReAct 進行問答和事實驗證任務(例如,HotpotQA 和 FEVER)。
2. 決策制定:將 ReAct 應用于交互式(基于語言的)決策任務;例如,ALFWorld 用于模擬導航,WebShop 用于完成自主購物任務。
知識密集型推理
在這個領域,LLM 智能體只接收一個問題或命題作為輸入。為了回答問題或評估命題的正確性,LLM 必須依賴于其內部知識庫或從外部環境中檢索必要的信息。
具體來說,智能體的行動空間如下圖所示。

ReAct 在知識密集型推理中的行動空間
在這里,我們看到作者通過智能體的行動空間暴露了基本的信息檢索功能 —— 這反映了人類如何在 Wikipedia 上查找信息。
與傳統的 LLM 不同,ReAct 智能體不會每次提示時只生成一個輸出。相反,智能體按以下順序生成輸出:
1. 選擇一個要執行的行動(可以是具體行動或思考)。
2. 根據這個行動從環境中獲得反饋(例如,從搜索查詢中檢索到的信息)。
3. 基于這個新的上下文繼續執行下一個行動。
最終,智能體會執行最終行動,以結束解決問題的過程。
如下圖所示,這個有狀態、有順序的問題解決方法是智能體的特征,顯著區分于標準 LLM。

使用 ReAct 按順序解決問題
決策制定
在決策制定任務中,ReAct 的設置與知識密集型推理任務非常相似。對于這兩種任務,人工手動注釋了多個推理軌跡,這些軌跡作為上下文示例提供給 ReAct 智能體。
然而,與知識密集型推理任務不同,ReAct 在決策制定任務中使用的思維模式是稀疏的 —— 模型在何時以及如何進行思考時要自主判斷。
此外,對于 WebShop 數據集,ReAct 智能體提供了更多種類的工具和行動選項;例如,搜索、篩選、選擇產品、選擇產品屬性、購買產品等。這個應用為 ReAct 與更復雜環境的交互提供了一個很好的測試場景。
ReAct 表現如何?
上面描述的 ReAct 智能體與幾個基準模型進行了比較:
- Prompting:少量示例提示,去除思維、行動和觀察,只留下問題和答案。
- CoT Prompting:與上述相同,但模型被提示在輸出最終解決方案之前生成一條思維鏈。
- Act(僅行動):從 ReAct 軌跡中去除思維,僅保留觀察和行動。
- Imitation(模仿):通過模仿和 / 或強化學習訓練的智能體,模擬人類的推理軌跡。
如下圖所示,ReAct 框架始終優于 Act,揭示了智能體在行動時進行思考的能力是極其重要的。進一步來看,我們發現 CoT 提示是一個強大的基準,在某些情況下超過了 ReAct 的表現,但在 LLM 容易發生幻覺的場景中表現不佳,而 ReAct 能夠利用外部信息源避免這些幻覺的產生。
最后,我們看到 ReAct 智能體的性能仍有很大提升空間。事實上,ReAct 探討的智能體系統相當脆弱;例如,作者指出,僅僅檢索到了無信息量的信息就可能導致失敗。

ReAct 框架的表現
ReAct + CoT
ReAct 在解決問題的過程中是客觀實際的。CoT 提示在制定解決復雜推理任務的結構方面表現出色。ReAct 將嚴格的觀察、思維和行動結構強加于智能體的推理軌跡上,而 CoT 則在制定推理過程時具有更多的靈活性。
為了同時獲得兩種方法的優點,我們可以在它們之間進行切換。
例如,如果 ReAct 在 N 步后未能返回答案,可以默認切換到 CoT 提示(即 ReAct → CoT);或者,如果多個 CoT 樣本之間存在分歧,則使用 ReAct(即 CoT → ReAct)。
無論是向 ReAct 還是向 CoT 切換,都能提升智能體的解決問題能力。
先前對智能體的嘗試
盡管 ReAct 可以說是第一個長期存在的 AI 智能體框架,但在智能體領域之前已有許多有影響力的論文和想法。這里將簡要概述一些關鍵的方法以及它們的性能。
1、Inner monologue,IM
這是與 ReAct 最為相似的工作之一,并應用于機器人領域,展示了將 LLM 作為一個通用問題解決工具在自然語言以外的領域中的可行性。
如圖所示,IM 將 LLM 與多個領域特定的反饋機制,如場景描述符或成功檢測器,進行集成。與 ReAct 相似,LLM 用于生成計劃并通過反復執行、思考以及從外部環境獲取反饋來監控任務的解決,例如拾取物體等。

IM工作示意圖
然而,相較于 ReAct,LLM 在 IM 中的「思考」能力是有限的,模型只能觀察來自環境的反饋并決定接下來需要做什么。ReAct 通過賦予智能體輸出大量自由形式的思維,解決了這個問題。
2、用于互動決策的 LLM (LID)
它使用語言作為規劃和行動的通用媒介,通過提出一個基于語言的框架來解決有序的問題。
我們可以將各種任務的上下文和行動空間表述為一系列 tokens,從而將任意任務轉換為與 LLM 兼容的標準化格式。然后,這些數據可以被 LLM 吸收,允許強大的基礎模型整合來自環境的反饋并做出決策,如圖所示。作者通過模仿學習對 LID 進行微調,以正確預測跨多個領域的行動。

LID 工作示意圖
3、WebGPT
它探索了將 LLM(GPT-3)與基于文本的網頁瀏覽器集成,以更有效地回答問題。這項工作是工具使用的早期開創者,教會 LLM 如何進行開放式搜索和瀏覽網頁。
然而,WebGPT 通過大量來自人類的任務解決方案數據集進行微調(即行為克隆或模仿學習)。因此,盡管這個系統表現出色(在超過 50% 的情況下產生的答案優于人類),但需要大量的人工干預。
盡管如此,使用人類反饋微調 LLM 智能體仍然是今天的熱門研究話題,而 WebGPT 是這一領域的基礎性工作。

WebGPT 工作示意圖
4、Gato
它受到 LLM 廣泛能力的啟發,是一個單一的「通用」智能體,能夠在多個模態、任務和領域中執行操作。
例如,Gato 可以用于玩 Atari 游戲、圖像描述、操控機器人手臂等。如報告中所述,Gato 能夠「根據上下文決定是輸出文本、關節扭矩、按鈕按壓,還是其他標記」。該模型確實朝著創建一個能夠解決幾乎任何問題的自主系統的目標邁進。
然而,類似于 WebGPT,Gato 是通過模仿學習方法進行訓練的,收集了一個龐大的數據集,包含了多個問題場景中的上下文和行動 —— 所有這些都表示為 token 序列。

Gato 工作示意圖
5、通過規劃進行推理(RAP)
這種方法旨在賦予 LLM 更好的世界模型以提高 LLM 規劃復雜、多步驟問題解決方案的能力。
特別地,LLM 用于構建一個推理樹,可以通過蒙特卡洛樹搜索(MCTS)來探索,以找到能夠獲得高獎勵的解決方案。在這里,LLM 本身也被用來評估解決方案。在 RAP 中,LLM 既充當智能體,又充當世界模型。

RAP 工作示意圖
更全面地了解 LLM 推理與智能體系統交叉的研究,請參閱這篇綜述。

- 論文鏈接:https://arxiv.org/abs/2504.09037
什么是「智能體」?
基于語言模型的智能體的起點,最簡單的理解,就是使用工具的語言模型。從這里開始,智能體的復雜性逐漸增加。 —— Nathan Lambert
盡管智能體在行業中非常流行,但它們并沒有明確的定義。智能體定義不清晰的原因在于,我們在今天的世界中遇到各種不同類型的智能體,這些智能體在復雜性上有很大的差異。
從高層次來看,智能體的功能在某些情況下可能與 LLM 類似,但智能體通常具有更廣泛的策略和工具可用于解決問題。
基于我們到目前為止所學的信息,接下來將創建一個框架,用于理解 AI 智能體可能擁有的能力范圍,以及這些能力與標準 LLM 的區別。
從大語言模型到智能體
前文介紹了多種概念,包括:
i) 標準 LLM ii) 工具使用 iii) 推理模型,以及 iv) 自主解決問題的系統。
從 LLM 的標準定義開始,我們將解釋這些概念如何在標準 LLM 的能力之上,創造出具有更多智能體性質的系統。

1、[Level 0] 標準 LLM
作為起點,我們可以考慮標準的 LLM 設置(如上圖所示),該設置接收文本提示作為輸入,并生成文本響應作為輸出。為了解決問題,該系統完全依賴于 LLM 的內部知識庫,而不引入外部系統或對問題解決過程施加任何結構。
為了更好地解決復雜的推理問題,我們還可以使用推理風格的 LLM 或 CoT 提示方法來引導推理軌跡,如下圖所示。

2、[Level 1] 工具使用
依賴 LLM 的內部知識庫存在風險 ——LLM 有知識截止日期,并且會產生幻覺。
為了解決這個問題,LLM 可以通過將子任務的解決委托給更專業的系統來更強大地解決問題,如下圖所示。

3、[Level 2] 問題分解
期望 LLM 在單一步驟中解決復雜問題可能是不現實的。相反,我們可以創建一個框架,規劃問題應該如何解決,并迭代地推導解決方案。
這樣的 LLM 系統可以是手工設計的,也可以通過使用像 ReAct 這樣的框架來設計,如下圖所示。

當然,使用 LLM 分解和解決復雜問題的問題與工具使用和推理密切相關。在整個問題解決過程中,LLM 可能依賴于各種工具,而推理能力對于制定詳細且正確的解決問題計劃至關重要。
進一步說,這種以 LLM 為中心的問題解決方法引入了推理過程中的控制流概念 —— 智能體的輸出是有序構建的,智能體有狀態地通過一系列問題解決步驟,逐步完成推理。
4、[Level 3] 增加自主性
上述框架概述了今天 AI 智能體的主要功能。然而,我們還可以通過賦予系統更高的自主性,使其變得更強大。例如,我們可以在智能體的行動空間中加入代表我們采取具體行動的能力(例如,購買物品、發送電子郵件或提交拉取請求)。
智能體是任何能夠感知其環境并對該環境采取行動的事物……這意味著,智能體的特征由其操作的環境和它能夠執行的行動集來定義。—— Chip Huyen
到目前為止,我們所概述的智能體始終以人類用戶的提示作為輸入。這些智能體只有在人類用戶觸發的提示下才會采取行動。然而,情況并不一定非得如此。我們可以構建持續在后臺運行的智能體。
例如,已經有很多關于開放式計算機使用智能體的研究,OpenAI 宣布了 Codex—— 一個基于云的軟件工程智能體,它可以并行處理多個任務,甚至具備自主向代碼庫提交 PR 的能力。
5、AI 智能體體系
結合我們在本概述中討論的所有概念,我們可以創建一個智能體系統,該系統:
- 在沒有任何人工輸入的情況下異步運行。
- 使用推理 LLM 制定解決復雜任務的計劃。
- 使用標準 LLM 生成基本思維或綜合信息。
- 代表我們在外部世界采取行動(例如,預訂機票或將事件添加到日歷中)。
- 通過搜索 API(或任何其他工具)獲取最新信息。
每種類型的 LLM 以及任何其他工具或模型都有其優缺點。這些組件為智能體系統提供了許多在不同問題解決方面有用的能力。智能體系統的關鍵在于以無縫和可靠的方式協調這些組件。
AI智能體的未來
盡管 AI 智能體非常流行,但在這個領域的工作都處于起步階段。智能體通過順序的問題解決過程來運作。如果這個過程中任何一步出錯,智能體就很可能會失敗。
去年,你說制約 [智能體] 發展的因素是另外九成的可靠性…… 你依然會描述這些軟件智能體無法完成一整天的工作,但是它們能夠在幾分鐘內幫你解決一些問題。——Dwarkesh Podcast
因此,可靠性是構建有效智能體系統的前提,尤其是在復雜環境中。換句話說,構建穩健的智能體系統將需要創造具有更高可靠性的 LLM。
無論是 LLM 還是智能體系統,進展都在迅速推進。最近的研究特別集中在有效評估智能體、創建多智能體系統以及微調智能體系統以提高在特定領域中的可靠性。
鑒于該領域的研究進展速度,我們很可能會在不久的將來看到這些智能體系統在能力和通用性方面的顯著提升。
























