理解什么是AI Agent，看懂這篇就夠了

AIGC新知

發布于 2025-3-21 07:17

瀏覽

0收藏

AI Agent越來越為人們熟知，我們熟悉的那種對話式大模型，正在慢慢淡出視野。但這些Agent所包含的復雜功能，往往需要許多組件模塊協同工作。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

問題來了，什么是Agent？

傳統意義上，LLM是一個概率預測模型，用于預測下一個token產生的概率。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

通過連續對tokens 進行采樣，我們就可以模擬與LLM進行對話，使用 LLM 輔助查詢更多信息，為我們提供更廣泛的答案。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

然而，任何LLM都會在我們對話的過程中，暴露出它的缺點：沒有記憶能力，記不住上一輪對話。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這就是為什么，LLM會在一些基本的數學運算的任務上出現失敗，本身LLM是一個概率模型，針對這種精確的計算任務也望塵莫及。

不是它不行，這是它的本身限制所在。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這種情況并不意味著LLM是非常糟透了的！

LLMs不需要擁有全部的超能力，我們可以借助外部工具、記憶和檢索系統來彌補不足。

通過外部系統（工具、記憶、檢索），LLM 的能力可以得到進一步的增強，不再出現那種突然的”短路“和記憶缺失。

Anthropic 將這稱為“增強的 LLM”。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

再次面對同樣的數學問題，增強式的LLM 會直接使用（這種是通過設置提示詞去調度的，遇到數學問題，就用計算器）合適的工具（一個計算器）。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

那么，這種增強式的LLM是Agent嗎？

它有Tool，Memory，LLM，或許算是...

回顧一下Agent基本定義：

Agent是指任何可以被視為通過傳感器感知其環境，并通過對環境的執行器采取行動的東西。

—— Russell & Norvig, 人工智能：現代方法（2016）

從定義來看，Agent是與環境進行交互，有很重要的幾個組件：

環境 — 代理互動的世界
傳感器 — 用于觀察環境
執行器 — 用于與環境互動的工具
效應器 — 決定如何從觀察到行動的“大腦”或規則

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

適用于與各種環境交互的代理，包括機器人與物理環境交互、 AI Agent與軟件系統交互。泛化到更加廣闊的邊界，適用于“Augmented LLM”。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

上述我們所說的增強式LLM，就是通過對話框內容輸入，進而觀察環境，并通過使用工具執行某些操作（比如AI搜索）。

那么除了執行工具和LLM大腦，如何有效地執行任務同樣重要。

AI Agent有一個非常重要的部分：規劃能力。這就要求LLM 需要通過鏈式思維等方法進行“推理”和“思考”。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

關于什么是推理能力，可以看下一篇文章。

通過這種鏈式的推理思考，AI Agent會規劃出執行任務的步驟，說明具體每一步怎么執行等等。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

回顧Agent的定義，一個完備的Agent需要具有LLM大腦+規劃能力+工具調用+記憶能力。

LLM讓智能體能夠理解任務，然后規劃任務執行的步驟，使用各種工具去執行，并且實時的記錄已經采取的行動（長期記憶和短期記憶）。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

LLM 智能體也分為不同自主程度的，其實就是系統執行任務的行為有多少是LLM主動去做的。一個系統越“有自主性”，系統的行為就越由LLM決定。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

接下來，我將通過LLM Agent的組件來探討自主行為方法：記憶、工具和規劃。

記憶Memory

LLMs 非常健忘，與之交互時根本不進行任何記憶操作。當你向LLM 提出一個問題，然后又提出另一個問題時，它不會記住前一個問題。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這種也稱為短期記憶（或工作記憶），一種近似即時上下文的緩沖區。

如何開啟短期記憶？

使用模型的上下文窗口就可以（比如大模型一般會標注 xxk），其實是LLM可以處理的token數量。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

一般上下文窗口至少包含8192個token，最多可以到數十萬token！

在實際使用中，可以使用較大的上下文窗口，將完整的對話歷史作為輸入提示的一部分。并不是去記住對話內容，而是告訴LLM 上一輪對話的內容。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

對于上下文窗口較小的模型，或對話歷史較長時，使用另一個LLM來總結迄今為止發生的對話。通過不斷總結對話，保持這次對話的規模較小。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

但是，在常見的Agent中，需要跟蹤規劃任務中的少至十個、多至幾十個步驟，上述的短期記憶（臨期操作）還不夠。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

有了短期記憶，自然也有長期記憶，理論上Agent可以記住幾百步的步驟，其中某些步驟可以并行。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

長期記憶包括需要在較長時間內保留的代理過去的行為空間。

一種常見的方法是將所有之前的交互、行動和對話存儲在外部向量數據庫（將對話嵌入到能夠捕捉其含義的數值表示）中，以啟用長期記憶。

長期記憶可以涉及保留不同會話中的信息。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

建立向量數據庫后，可以嵌入任何給定的提示，將提示嵌入與數據庫嵌入進行比較，在向量數據庫中找到最相關的信息。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這個過程想必好的人都耳熟能詳，沒錯，就是檢索增強生成（RAG）。

不同類型的信息與不同的記憶類型相關聯以進行存儲。

在心理學中，有多種類型的記憶需要區分，在《語言代理的認知架構》論文將其中四種類型記憶與Agent關聯起來。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

工具Tool

工具允許LLM與外部環境進行交互，或使用外部應用程序（如運行自定義代碼）。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

工具通常有兩類用途：獲取數據以檢索最新信息和采取行動如安排會議或訂購食物。

要實際使用一個工具，LLM 必須生成符合給定工具 API 的文本。我們通常期望生成可以格式化為 JSON 的字符串，以便可以輕松地將其傳遞給代碼解釋器。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

可以生成自定義函數，LLM 可以使用這些函數，比如一個基本的乘法函數。這通常被稱為函數調用。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

有些LLMs如果被正確且詳細地提示，可以使用任何工具。大多數當前的LLMs都能使用工具。一種更穩定的方法是通過微調 LLM 訪問工具.

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

工具可以在給定的順序中使用，如果代理框架是固定的……

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

……或者LLM可以自主選擇使用哪個工具以及何時使用。LLM像上述圖片中的代理本質上是一系列LLM調用（但具有自主選擇動作/工具等的能力）。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

換句話說，中間步驟的輸出會被反饋回LLM 繼續處理。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

Toolformer

工具使用可以增強LLMs的能力并彌補其缺點。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

一種早期的技術被稱為 Toolformer，這是一種訓練模型來決定調用哪些 API 及其方式的技術。

它通過使用[和]標記來指示調用工具的開始和結束。當給定提示，例如“5 乘以 3 是什么？”，它會生成標記直到遇到標記。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

Toolformer 通過精心生成一個包含許多模型可以訓練的工具使用數據集來創建這種行為。對于每種工具，都會手動創建幾個示例提示，并使用這些提示來采樣使用這些工具的輸出。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

輸出會根據工具使用、輸出的正確性以及損失減少進行篩選。生成的數據集用于訓練一個 LLM，使其遵循這種工具使用的格式。

模型上下文協議（MCP）

工具是Agent框架的重要組成部分，允許LLMs與外部世界互動并擴展其能力。

當你有多種不同的 API 時，啟用工具使用變得麻煩，因為任何工具都需要：

手動跟蹤并提供給LLM
手動描述（包括其預期的 JSON 模式）
手動更新每當其 API 發生變化時

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

為了讓給定的Agent框架容易實現工具，Anthropic 發布了模型上下文協議（MCP）。MCP 協議標準化了各種服務的 API 訪問。

由三個組件組成：

MCP Host — LLM 應用程序（例如 Cursor）管理連接
MCP Client — 與 MCP 服務器保持一對一的連接
MCP Server — 為 LLMs 提供上下文、工具和功能

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

一個例子：希望某個 LLM 應用程序總結您倉庫中的最新 5 次提交。

MCP 主機（與客戶端一起）會首先調用 MCP 服務器以詢問哪些工具可用。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

LLM 接收信息并可以選擇使用一個工具。它通過主機向 MCP 服務器發送請求，然后接收結果，包括使用的工具。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

LLM 接收結果并可以解析一個答案給用戶。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這個框架通過連接任何LLM應用程序都可以使用的 MCP 服務器，使創建工具變得更加容易。當你創建一個與 Github 交互的 MCP 服務器時，任何支持 MCP 的LLM應用程序都可以使用它。

規劃

Agent中的規劃就是將給定任務分解為可執行的步驟。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

插一嘴，這不就是Manus的todo.md。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區圖片

執行計劃允許大模型迭代反思過去的行為，并在必要時更新當前計劃。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

推理

LLM在執行復雜任務之前，需要進行制定可執行步驟，就需要強大的推理能力，和人的大腦一樣，在接受到上級的任務之后，會思考具體怎么執行。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這種推理行為要么對LLM 微調或特定的提示工程來實現。

通過提示工程創建LLM應遵循的推理過程示例。提供示例（也稱為少量提示）是一種很好的方法，可以引導LLM的行為。【鏈式思考】

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

鏈式思考也可以在零樣本情況下通過說“讓我們一步一步地思考”來啟用。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

DeepSeek-R1的訓練過程中，獎勵被用來引導思考過程而使用。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

推理與行動

LLM啟用推理能力，不一定能夠規劃出可行的執行步驟。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

fig1：展示推理行為 fig2：通過工具與環境互動

最早結合這兩種過程的技術之一被稱為 ReAct（推理和行動）。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

ReAct 通過提示工程來實，描述了三個步驟：

思考 - 當前情況的推理步驟
行動 - 執行的一組操作（例如，工具）
觀察 - 對行動結果的推理步驟

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

LLM 使用此提示（可作為系統提示）來引導其行為，在思維、行動和觀察的循環中工作。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這種行為不斷循環，直到某個動作指明返回結果。

通過迭代思考和觀察，LLM 可以規劃出行動，觀察其輸出，并相應地進行調整。

反思

即使有 ReAct 的 LLMs，也不能完美地執行每一項任務。

Reflexion 是一種通過口頭強化來幫助代理從先前的失敗中學習的技術。

該方法假設有三個角色：

執行者 — 根據狀態觀察選擇并執行行動。我們可以使用鏈式思考或 ReAct 等方法。
評估者 — 評估執行者產生的輸出。
自我反思 — 反思行動執行者采取的行動以及評估器生成的評分。

如下，添加了記憶模塊來跟蹤行動（短期）和自我反思（長期），幫助代理從錯誤中學習并識別改進的行動。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

另一種技術被稱為 SELF-REFINE，其中對輸出進行精煉和生成反饋的動作會重復進行。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

由同一個LLM負責生成初始輸出、精煉輸出和反饋。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這種自我反思行為，無論是 Reflexion 還是 SELF-REFINE，都與強化學習非常相似，在這種學習中，根據輸出的質量給予獎勵。

多智能體協作

當前的單 Agent存在一些問題：過多的工具、過長的上下文、任務過于松散等。

在多 Agent 框架，多個 Agent（都有工具、記憶和規劃能力）相互作用并與其環境互動：

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

多 Agent 系統由專業 Agent 組成，每個 Agent 都配備了自己的一套工具，并由監督者管理。

監督者負責管理 Agent 之間的通信，并可以為專門化的 Agent 分配特定任務。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

市面上很多的Agent架構，核心是兩個組件：

Agent 初始化：個別（專業化）的agent如何創建？
Agent 編排：所有Agent如何協調？

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

這兩種組件的實現方式，在其他多代理框架里面可以找到答案。

人類行為的交互式模擬

在論文《Generative Agents: Interactive Simulacra of Human Behavior》里面，作者創建了模擬人類行為的生成式Agent。

論文：??https://arxiv.org/pdf/2304.03442??

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

每個生成型Agent具有不同的個人資料，表現出不同的行為方式，增加了互動性和趣味性。

每個Agent初始化時包含三個模塊（記憶、規劃、反思），與ReAct 和 Reflexion 的核心組件非常相似。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

記憶模塊存儲了所有規劃和反思行為，以及迄今為止的所有事件。對于任何下一步或問題，會檢索記憶并根據其新鮮度、重要性和相關性進行評分。得分最高的記憶會被分享給Agent。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

他們共同使得Agent能夠自由地進行行為并相互交互。因此，Agent之間幾乎沒有需要進行協調的地方，因為它們沒有特定的目標需要完成。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

評估指標主要以Agent 行為的可信度為指標，由人類評估者打分。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

由此可見，Agent在執行任務做規劃時，沒有反思行為是不完整的。

模塊化框架

有各種開源框架（AutoGen、MetaGPT、CAMEL）可以用于創建多智能體系統，通常包括：配置文件、環境感知、記憶、計劃和動作。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

使用 CAMEL 時，用戶首先創建其問題，并定義 AI 用戶和 AI 助手角色。AI 用戶角色代表人類用戶，并將引導整個過程。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

AI 用戶和 AI 助手將通過彼此互動來合作，角色扮演方法使Agent之間能夠進行協作溝通。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

在過去一年，尤其是最近幾周，這些框架的增長是爆炸性的。

理解什么是AI Agent，看懂這篇就夠了-AI.x社區

隨著這些框架不斷成熟和發展，2025年將是真正令人興奮的一年！

本文轉載自??AIGC新知??，作者：絳燁

標簽

Agent

模塊

贊

回復

舉報

回復

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學堂

理解什么是AI Agent，看懂這篇就夠了

問題來了，什么是Agent？

記憶Memory

工具Tool

Toolformer

模型上下文協議（MCP）

規劃

推理與行動

反思

多智能體協作

人類行為的交互式模擬

模塊化框架

目錄