LangChain發布AI Agent工程狀態報告:2025年行業洞察
進入2026年,企業已經不再糾結是否要構建AI Agent,而是開始思考如何可靠、高效、規模化地部署它們。
LangChain最近發布了一份《AI Agent工程狀態報告》,對1300多名專業人士進行了調研,試圖了解他們如何演進AI Agent用例,以及如何處理Agent工程中的挑戰。
核心發現
這份報告揭示了一些關鍵趨勢:
? 生產部署已成主流:57%的受訪者已經在生產環境中運行AI Agent,大型企業走在了采用的前列
? 質量仍是最大障礙:32%的受訪者將質量問題列為首要障礙,而成本擔憂相比去年有所下降
? 可觀測性成為標配:近89%的受訪者已經為他們的Agent實施了可觀測性方案,這一比例超過了評估方案的采用率(52%)
? 多模型使用成常態:OpenAI的GPT模型占據主導地位,但Gemini、Claude和開源模型也獲得了顯著采用。微調尚未被廣泛采用
什么是Agent工程?
Agent工程是將大語言模型(LLM)轉化為可靠系統的迭代過程。由于Agent具有非確定性特征,工程師需要快速迭代來完善和提升Agent質量。這已經逐漸發展成為一個獨立的工程學科。
大型企業引領采用
超過一半的受訪者(57.3%)表示目前已經在生產環境中運行AI Agent,另有30.4%正在積極開發Agent,并有具體的部署計劃。
這標志著相比去年調查的明顯增長,當時只有51%的受訪者表示在生產環境中運行Agent。
組織正在從概念驗證階段轉向生產部署——對于大多數組織來說,問題不再是"是否"要部署Agent,而是"如何"和"何時"部署。

規模化的變化尤其明顯。在員工規模超過1萬人的大型組織中,67%已經在生產環境中運行Agent,24%正在積極開發并計劃部署。
相比之下,員工少于100人的小型組織中,50%在生產環境中運行Agent,36%正在開發中。這表明大型組織正在更快地從試點項目轉向持久化系統,這可能得益于他們在平臺團隊、安全性和可靠性基礎設施方面的更大投入。
主要應用場景
客戶服務成為最常見的Agent應用場景(26.5%),研究和數據分析緊隨其后(24.4%)。這兩個類別加起來占據了所有主要Agent部署的一半以上。

客戶服務的強勁表現表明,團隊正在將Agent直接面向客戶,而不僅僅是在內部使用。同時,Agent在內部繼續提供明確價值,18%的受訪者表示使用Agent進行內部工作流自動化,以提高員工效率。
研究和數據分析用例的流行進一步強化了Agent當前的優勢領域:綜合大量信息、跨來源推理,以及加速知識密集型任務。
值得注意的是,今年受訪者選擇的用例分布更加廣泛(受訪者只能選擇一個主要用例),這表明Agent采用可能正在從早期狹窄的應用集合中多樣化發展。
在員工超過1萬人的大型組織中,內部生產力是首要用例(26.8%),客戶服務(24.7%)和研究與數據分析(22.2%)緊隨其后。大型企業可能傾向于首先關注提升內部團隊效率,然后再或同時部署面向最終用戶的Agent。
生產部署的最大障礙
質量仍然是生產部署的最大障礙,這與去年的發現一致。

今年,三分之一的受訪者將質量列為首要障礙。這包括準確性、相關性、一致性,以及Agent保持正確語氣和遵守品牌或政策準則的能力。
延遲已成為第二大挑戰(20%)。隨著Agent進入面向客戶的用例,如客戶服務和代碼生成,響應時間成為用戶體驗的關鍵部分。
這也反映了團隊在質量和速度之間的權衡,因為更強大的多步驟Agent可以提供更高質量的輸出,但響應速度往往較慢。
相比之下,成本作為擔憂的頻率低于往年。模型價格的下降和效率的提升似乎已經將注意力從原始支出轉移開,組織優先考慮讓Agent工作得更好、更快。
在企業(2000+員工)中,質量仍然是首要障礙,但安全成為第二大擔憂,24.9%的受訪者提到了這一點——超過了延遲,后者更常成為小型組織的挑戰。
對于員工超過1萬人的組織,書面回復指出,Agent產生的幻覺和輸出一致性是確保Agent質量的最大挑戰。許多受訪者還提到了在上下文工程和大規模管理上下文方面持續存在的困難。
Agent的可觀測性
追蹤多步驟推理鏈和工具調用的能力已成為Agent的標配。

89%的組織已經為其Agent實施了某種形式的可觀測性,62%擁有詳細的追蹤功能,可以檢查單個Agent步驟和工具調用。
在已經擁有生產環境Agent的受訪者中,采用率甚至更高:94%已經實施了某種形式的可觀測性,71.5%擁有完整的追蹤能力。
這說明了Agent工程的一個基本真理:如果沒有對Agent如何推理和行動的可見性,團隊就無法可靠地調試故障、優化性能,或與內部和外部利益相關者建立信任。
LangSmith等可觀測性平臺提供了實時監控、Agent追蹤和模式識別等功能,幫助開發者深入了解Agent行為,快速識別和解決問題。
2025年3月,LangSmith還引入了對OpenTelemetry的端到端支持,標準化了整個應用堆棧的追蹤。
Agent的評估和測試
雖然可觀測性被更廣泛地采用,但Agent評估仍在追趕并獲得更多關注。

略超過一半的組織(52.4%)報告在測試集上運行離線評估,這表明許多團隊看到了在部署前捕獲回歸和驗證Agent行為的重要性。
在線評估的采用率較低(37.3%),但隨著團隊開始監控真實世界的Agent性能,這一比例正在增長。
對于已經擁有生產環境Agent的組織,評估實踐可能更加成熟,因為整體評估采用率明顯更高("不進行評估"的比例從29.5%降至22.8%)。
我們還看到更多組織運行在線評估(44.8%),這表明一旦Agent面對真實用戶,團隊需要觀察生產數據以實時檢測問題。
大多數團隊仍然從離線評估開始,這可能是因為它們的進入門檻較低且設置更清晰,但許多團隊正在采用分層方法。在運行任何評估的組織中,近四分之一同時結合了離線和在線評估。
這些運行評估的組織還依賴人工和自動化方法的混合進行評估,實施LLM-as-judge以獲得廣度,人工審查以獲得深度。更廣泛地說,人工審查(59.8%)對于細微或高風險情況仍然至關重要,而LLM-as-judge方法(53.3%)越來越多地用于擴展質量、事實準確性和準則遵守的評估。

相比之下,傳統的ML指標如ROUGE和BLEU的采用有限。這些可能不太適合存在多個有效響應的開放式Agent交互。
模型和工具生態
OpenAI模型占據主導地位,但很少有團隊只押注單一提供商。

超過三分之二的組織報告使用OpenAI的GPT模型,但模型多樣性是常態——超過四分之三的組織在生產或開發中使用多個模型。團隊越來越多地根據復雜性、成本和延遲等因素將任務路由到不同的模型,而不是追求平臺鎖定。
盡管商業API很方便,但在內部運行模型仍然是許多組織的重要策略。三分之一的組織報告投資于部署自己模型所需的基礎設施和專業知識。這種開源模型采用可能由大容量成本優化、數據駐留和主權要求,或敏感行業的監管約束驅動。
與此同時,微調仍然是專業化的,而非標準化的。大多數組織(57%)不對模型進行微調,而是依賴基礎模型結合提示工程和RAG。由于微調需要在數據收集、標注、訓練基礎設施和持續維護方面進行大量投資,它似乎主要保留給高影響或專業用例。
日常使用的Agent
當我們詢問"你在日常工作中最常使用哪些Agent?"時,從書面回復中出現了幾個明顯的模式。
1. 編程Agent主導日常工作流
迄今為止最常被提及的Agent是編程助手。受訪者反復提到Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf和Antigravity等工具,這些工具是他們日常開發循環的一部分,無論是用于代碼生成、調試、測試創建,還是導航大型代碼庫。

2. 研究和深度研究Agent是第二常用的
第二種最常見的模式是由ChatGPT、Claude、Gemini、Perplexity和類似工具提供支持的研究和深度研究Agent。這些Agent用于探索新領域、總結長文檔,以及跨來源綜合信息。它們經常在同一工作流中作為編程Agent的伴侶使用。
3. 基于LangChain和LangGraph構建的自定義Agent也很受歡迎
第三個不同的答案集群指向自定義Agent,許多受訪者基于LangChain和LangGraph構建。受訪者描述了用于QA測試、內部知識庫搜索、SQL/文本轉SQL、需求規劃、客戶支持和工作流自動化等內部Agent。
有意義的少數受訪者還指出,他們除了LLM聊天或編程輔助之外還沒有使用Agent,這強調了雖然Agent使用很廣泛,但更廣泛的"Agent化一切"仍處于早期階段。
調研方法
本報告的洞察來自2025年11月18日至12月2日進行的為期2周的公開調研。我們收到了1340份回復。以下是一些人口統計數據:
前5大行業:
? 技術(63%的受訪者)
? 金融服務(10%的受訪者)
? 醫療保健(6%的受訪者)
? 教育(4%的受訪者)
? 消費品(3%的受訪者)
? 制造業(3%的受訪者)
公司規模:
? 少于100人(49%的受訪者)
? 100-500人(18%的受訪者)
? 500-2000人(15%的受訪者)
? 2000-10000人(9%的受訪者)
? 10000+人(9%的受訪者)
這份報告清晰地展示了AI Agent正在從實驗性項目轉變為企業系統的核心組成部分。隨著"Agent工程"作為獨立學科的興起,我們有理由相信,未來幾年將是AI Agent大規模應用的關鍵時期。對于技術團隊來說,如何構建可靠、可觀測、可評估的Agent系統,將是決定成功的關鍵因素。






























