為什么95%的企業(yè)人工智能項目都會失敗:沒人愿意承認的架構問題

2024年,企業(yè)在人工智能領域花費了3650億美元,其中95%的投入毫無成效。
各地模式如出一轍:復雜的模型,糟糕的基礎設施,零投資回報率。人工智能行業(yè)當初向企業(yè)推銷的是模型,而企業(yè)真正需要的是操作系統(tǒng)。如今,企業(yè)卻在實驗性的基礎設施上運行生產工作負載,這些基礎設施在實際使用中不堪重負。
無人提及的價值6440億美元的基礎設施問題
麻省理工學院剛剛發(fā)布的研究顯示,95%的生成式人工智能試點項目未能實現(xiàn)預期價值。麥肯錫公司發(fā)現(xiàn),盡管投入巨資,99%的公司仍未達到人工智能成熟階段。Gartner預測,到2025年,人工智能支出將達到6440億美元,同比增長76%。但價值究竟在哪里?
但沒人說的是:你們的問題不在于模型,而在于基礎設施。
整個人工智能行業(yè)就像用報紙蓋住的狗屎,然后納悶為什么它還臭。他們沒有重新思考工作協(xié)調的方式,只是在現(xiàn)有的混亂局面上疊加對話式人工智能,就指望它能帶來變革。當人工智能無法交付成果時,他們把責任推給技術本身,而不是意識到他們的整個架構與人工智能系統(tǒng)的實際運作方式不兼容。
這是架構問題,而不是人工智能問題。
卡內基梅隆大學發(fā)表了一項關于未來主義的研究,結果顯示人工智能代理在執(zhí)行基本任務時表現(xiàn)糟糕——成功率僅為20%,平均每項任務成本高達6美元。研究人員嘗試讓人工智能進行虛擬辦公室參觀、安排日程、撰寫績效評估以及瀏覽文件系統(tǒng)。結果可謂慘敗。
但沒人注意到這一點:這不是人工智能的故障,而是架構的缺陷。
他們試圖讓人工智能讀取支持工單、重新生成績效考核、在日歷中添加內容以及訪問 Slack 頻道。失敗后,他們指責人工智能出現(xiàn)了幻覺。但實際上,他們是在用人工智能模擬人類的官僚作風。
想想這項任務原本應該是什么樣子:一個包含所有AI所需文件引用的JSON文件。整個過程只需3分鐘即可完成,成本幾乎為零。然而,他們卻設計了一個讓AI復制人類工作流程的系統(tǒng)——瀏覽界面、查看Slack頻道、點擊虛擬辦公空間——然后當系統(tǒng)運行不正常時,他們卻裝作很驚訝的樣子。
這就像雇傭一群患有失憶癥的航空工程師一起造飛機。你剛跟他們說完,他們就全忘了。然后飛機起飛時墜毀,你還挺驚訝的。
為什么多智能體框架會失效
典型的多智能體框架會這樣處理一個簡單的任務:從 Readwise 獲取高亮內容,創(chuàng)建大綱文檔,發(fā)送摘要郵件。這應該很簡單——大概只需要 30 秒的執(zhí)行時間。三個操作。
多智能體框架方法將部署:
- 用于分解任務的規(guī)劃代理
- 一名研究代理,負責分析背景信息
- 一個用于檢索亮點信息的代理
- 一位寫作代理負責生成摘要
- 用于調用 API 的文檔創(chuàng)建代理
- 郵件規(guī)劃代理用于構建郵件結構
- 發(fā)送電子郵件代理執(zhí)行投遞
七個代理。執(zhí)行三個行動。
任何一家頭腦正常的公司都不會雇傭7個人來做這件事。最多只會雇傭兩個人。但如果一個多智能體框架需要7個智能體來完成2個人就能完成的工作,那就很難說這能提高效率了。
沒人問的問題是:這種協(xié)調機制究竟是如何運作的?每個代理都需要知道前一個代理做了什么。它們通過對話式交接進行協(xié)調——代理之間通過消息傳遞,一個代理“告訴”下一個代理該做什么。沒有集中式的模式定義工作流程,也沒有顯式的狀態(tài)管理。只有自主代理通過對話協(xié)商下一步該做什么。
價值 47,000 美元的無限循環(huán):當架構設計失敗時會發(fā)生什么
一個生產環(huán)境中的多智能體系統(tǒng)進入了一個無限對話循環(huán),兩個智能體連續(xù)“交談”了 11 天,在無人察覺之前產生了 47,000 美元的 API 費用。
這并非個例,而是基于對話的協(xié)調的必然結果。
第1周:API費用127美元??雌饋碚?。
第 2-3 周:成本不斷上升,但未配置任何警報。
第4周:18400美元。直到收到賬單才注意到。
這些智能體并沒有出故障。它們“正?!惫ぷ鳌皇遣粩嗟鼐褪袌稣{研進行無休止的對話,卻始終無法完成實際任務。沒有錯誤狀態(tài),也沒有完成信號。只是兩個智能體陷入了一場無人察覺的遞歸對話。
為什么沒有設置緊急停止開關?為什么它能運行11天而無人察覺?
因為多智能體框架提供的可觀測性非常有限。LangChain 的 LangSmith 控制面板僅顯示一些基本指標:哪些智能體運行、成功/失敗狀態(tài)、消耗的總令牌數(shù)。但它不顯示:實時令牌消耗率、每個智能體的對話循環(huán)次數(shù),以及能夠捕捉到兩個智能體陷入遞歸對話的細粒度執(zhí)行跟蹤信息。
系統(tǒng)顯示“運行中”,沒有錯誤狀態(tài)。從儀表盤來看,一切正常——客服人員正在溝通,令牌正在消耗,沒有標記任何故障。由于沒有實時監(jiān)控對話模式或令牌消耗速度,直到收到月度賬單,系統(tǒng)才意識到客服人員已經陷入了無限循環(huán)。
更糟糕的是:語言模型提供商無論如何都能拿到錢。當你的智能體陷入無限循環(huán),不斷累積 API 費用時,OpenAI 和 Anthropic 卻能從這些浪費的計算資源中獲利。他們既沒有問責機制,也沒有動力去阻止這種行為。這實際上是他們的一場有利可圖的騙局——缺乏透明度意味著成本失控,從而帶來更多收入。
為什么基于云的系統(tǒng)無法看到正在發(fā)生的事情
有一個重要的架構限制卻鮮為人知:如果你的整個系統(tǒng)都基于云端,那么你的可觀測性將受限于LLM提供商所公開的信息。你完全受制于他們。你只能看到他們在使用情況圖表中展示的內容,而這些圖表實際上什么也提供不了。
使用云 API,你只能看到服務提供商決定向你展示的內容。而且他們沒有動力提供透明度——如果你直到收到賬單才發(fā)現(xiàn)費用飆升,對他們來說更有利可圖。
阻礙企業(yè)人工智能部署的核心問題
企業(yè)人工智能部署失敗的根本原因并非模型智能不足,而是架構缺陷。當95%的人工智能試點項目失敗,企業(yè)在無限循環(huán)中白白浪費4.7萬美元時,問題不在于GPT-4不夠智能,而在于企業(yè)在搖搖欲墜的架構之上構建系統(tǒng):非結構化數(shù)據(jù)導致處理無法進行;將人類從錯誤的環(huán)節(jié)移除;目標模糊不清,甚至人類都無法執(zhí)行;對實際運行情況完全缺乏可觀測性;以及使用聊天機器人模擬人類官僚機構的多智能體框架,而非徹底消除協(xié)調開銷。
數(shù)據(jù)結構問題:期望從混沌中煉出煉金術
企業(yè)以為只要把TB級的非結構化數(shù)據(jù)一股腦兒地塞進文件夾,就能指望人工智能從噪聲中找到有效信息。他們把多年的Slack對話記錄扔進訓練集,卻不明白為什么人工智能無法捕捉到他們的“品牌聲音”。他們把數(shù)百萬份文檔扔給模型,卻期望模型能對業(yè)務流程有清晰的理解。
但你期望模型能像煉金術士一樣,而數(shù)據(jù)結構本身就讓這幾乎成為不可能。
即使是人類也需要結構化的信息才能將其付諸行動。這就是“第二大腦”方法論奏效的原因——它使知識既易于獲取又可付諸實踐。如果信息沒有結構化以便于獲取,人類也無法有效地協(xié)作。
現(xiàn)在,假設你把同樣的問題擴展到復雜的、多步驟的工作流程中,并借助人工智能來解決。有人給人工智能一個模糊的提示,它就會做出反應,因為這就是它的工作方式,然后你就大規(guī)模地部署它。非結構化、混亂的數(shù)據(jù)架構和給人工智能一個模糊的提示一樣糟糕——唯一的區(qū)別在于,現(xiàn)在你是在復雜的、多步驟的工作流程中大規(guī)模地處理這個問題。
阻礙協(xié)調的最大問題在于:信息流缺乏明確的結構。你沒有定義信息如何在系統(tǒng)中流動。你期望人工智能能像煉金術士一樣,神奇地找出所有信息的位置和連接方式。它做不到。任何人都做不到。
消除人為因素謬誤
麻省理工學院發(fā)現(xiàn),企業(yè)人工智能支出中超過50%用于銷售和營銷用例——聊天機器人、內容生成、線索評分。但最能衡量投資回報率的卻是后臺自動化:發(fā)票處理、數(shù)據(jù)核對、合規(guī)工作流程。
他們選擇開發(fā)炫酷的面向客戶的應用程序,而不是從事枯燥乏味、實際上可以省錢的后臺工作。為什么?原因有二:
- 他們陷入了“將人從流程中移除”的謬誤之中。
- 他們是白癡
根本性的誤解在于:目標并非將人完全排除在外,而是將人置于他們真正創(chuàng)造價值的環(huán)節(jié)。
以內容創(chuàng)作為例:你可以讓人工智能從零開始生成一篇完整的博客文章。它生成的文本語法正確,但內容平庸,缺乏鮮明的個人風格和視角。這就是所謂的“將人從流程中移除”——而這種方法之所以失敗,是因為創(chuàng)意指導和個人風格都離不開人。
更優(yōu)方案:由人提供洞見、示例和方向;人工智能構建框架并撰寫草稿;人進行驗證和完善。這種循環(huán)協(xié)作能夠產生更優(yōu)質的成果,因為人處于最恰當?shù)奈恢谩峁┡袛唷⒈磉_和創(chuàng)意指導,而不是逐字逐句地敲擊鍵盤。
像發(fā)票處理這樣的后臺自動化流程不需要人工干預或語音輸入。將采購訂單與發(fā)票匹配是一個確定性的工作流程,在這個環(huán)節(jié)中,人為因素沒有任何作用。它應該完全自動化。
面向客戶的內容創(chuàng)作需要人的聲音和判斷。這才是人類創(chuàng)造價值的地方。人工智能應該輔助,而不是取代。
企業(yè)的做法完全顛倒了。他們試圖將人從那些需要人為干預的領域移除,卻把人留在那些他們毫無價值的領域。
預期產出問題:為什么模糊的目標必然導致失敗
觀察人們與人工智能互動并對結果感到沮喪的情景。通常問題不在于人工智能本身,而在于請求過于模糊,甚至連人類都難以理解。如果人類都無法理解目標,語言模型當然也無法理解。
人工智能系統(tǒng)能否成功運行,關鍵往往在于任務定義。每個可執(zhí)行的任務都需要三個組成部分:
- 任務標識符——這是什么?
- 流程描述——需要發(fā)生什么?
- 預期產出——成功是什么樣的?
第三個要素是大多數(shù)企業(yè)失敗的地方。他們定義了流程,卻沒有定義結果。
含糊不清: “修改這篇文章”
“修正”指的是什么?語法?結構?語氣?長度?
人工智能會進行猜測,但很可能猜錯。
結果需要多次修改。
可執(zhí)行目標
刪除冗長的句式。需要刪除的句式:當三個連續(xù)的句子都以“這些人”或“這種方法”開頭時,將其合并成一個句子。通讀全文,精簡所有出現(xiàn)這種句式的地方。
有了可執(zhí)行的目標,具體行為和成功標準就被明確定義了。人工智能無需猜測即可執(zhí)行。
當企業(yè)提出“提高效率”之類的目標時——這是無法實現(xiàn)的。
- 具體需要改進哪些工作流程?
- 成功的衡量標準是什么?
- 前后狀態(tài)分別是怎樣的?
如果目標如此模糊,那就不是人工智能問題,而是規(guī)范問題。
當企業(yè)提出“提高效率”之類的目標時,這根本無法執(zhí)行。具體應該改變哪些工作流程?成功的衡量標準是什么?改變前后的狀態(tài)分別是什么樣的?
如果目標如此模糊,那就不是人工智能問題,而是規(guī)范問題。
緊急停止開關必須可量化
避免 47,000 美元無限循環(huán)的關鍵在于:終止開關必須基于可量化的指標。你無法通過語言本身來強制執(zhí)行語言模型行為——只能通過架構來實現(xiàn)。
語言是建議,是對用戶需求的預測。架構是強制執(zhí)行。這完全符合用戶的需求,語言邏輯模型(LLM)別無選擇。
對于一個成本為 4.7 萬美元的循環(huán)問題,如果客服人員陷入對話僵局,那么當客服人員 3 和 4 連續(xù) 100 次交互后仍未切換到客服人員 5 時,就應該終止該循環(huán)。這并非主觀判斷(“他們是否取得了進展?”),而是具體判斷:交互次數(shù)達到 100 次但狀態(tài)未發(fā)生變化。
你不能直接告訴一個語言邏輯管理器(LLM)“不要無限循環(huán)”,然后指望它能正常工作。你必須設計這樣的架構:“如果 X 次交互沒有狀態(tài) Y,則停止執(zhí)行。”架構強制執(zhí)行語言只能建議的功能。
特權訪問災難:為什么會有數(shù)十個非人類賬戶?
這種現(xiàn)象的存在本身就說明設計上存在嚴重缺陷。語言模型為什么需要特權訪問權限?如果采用集中式憑證管理,語言模型就完全沒有必要參與特權訪問。
為什么身份驗證不是集中式的?
答案是:它們沒有真正的架構或工具注冊表。多代理框架中的每個代理都被視為一個獨立的實體,需要自己的 API 憑證。
- 代理 1 需要 Salesforce 訪問權限
- 代理 2 需要數(shù)據(jù)庫憑據(jù)
- 代理 3 需要電子郵件訪問權限
- 代理 4 需要 Slack 賬號密碼。
他們將其設計得像一個人類組織一樣,每個員工都需要自己的登錄賬號。
為什么?因為整個行業(yè)都固守著這樣一種觀念:智能僅僅來源于語言模型。語言模型只是一個組成部分——一個沒有身體的大腦。
優(yōu)秀的AI基礎設施之所以有效,部分原因在于不把語言模型當作人來對待,而是當作帶有語言接口的函數(shù)來對待。因為它們本質上就是函數(shù)。
語言學習模塊(LLM)的語言表達方式如同對話,因此人們認為它們可以模仿人類的工作流程和交互方式。他們忘記了,在界面之下——也就是你我看到的對話界面——其實只是一堆二進制代碼。僅僅是代碼而已。它恰好可以響應自然語言輸入,但它仍然只是軟件而已:
def language_model(input_param): # 無論底層發(fā)生何種整體轉換,返回 output_para
輸入參數(shù):用戶告訴LLM的內容
輸出參數(shù):LLM 告訴用戶的內容
轉換:某種巨大的劇本
因為他們不把LLM(生命周期管理)當作軟件來對待,而是像設計人類組織一樣設計代理系統(tǒng)。每個代理都有自己的憑證,并通過對話進行協(xié)調,而不是采用集中式身份驗證和注冊工具的單一執(zhí)行中心。
MD安德森癌癥中心耗資6200萬美元的失敗案例:當最終用戶不是共同設計者時
MD安德森癌癥中心斥資6200萬美元購置了IBM Watson腫瘤學系統(tǒng),旨在幫助腫瘤科醫(yī)生推薦癌癥治療方案。然而,該系統(tǒng)在2017年徹底崩潰。
技術問題確實存在:
- Watson是用假設案例進行訓練的,而不是用真實的病人數(shù)據(jù)。
- 它給出了不安全的建議——例如建議對已有出血風險的患者進行可能導致嚴重出血的治療。
- 但更嚴重的問題是:醫(yī)生被視為最終用戶,而非共同設計者。這套系統(tǒng)未經他們同意就被強加給他們。它給出的建議晦澀難懂,且不解釋原因。醫(yī)生們拒絕接受這套系統(tǒng),因為他們沒有自主權,也無法理解沃森推薦治療方案的原因。
最荒謬的是:為什么要把系統(tǒng)實際使用者當作最終用戶來對待,而不是讓他們來定義輸入?這正是需要人為干預的絕佳例子。如果是醫(yī)生設計的,他們肯定能立刻發(fā)現(xiàn)問題。
醫(yī)學研究人員關注的是經驗數(shù)據(jù),而不是假設。假設的例子毫無用處。你需要的是真實的經驗數(shù)據(jù)。任何頭腦清醒的醫(yī)生都不會相信人工智能在癌癥診斷方面提供的建議,因為他們根本不知道人工智能究竟掌握了什么,而且它的訓練數(shù)據(jù)也只是基于假設。
促成此事的人應該因瀆職被起訴。
這體現(xiàn)了“人選不當”的問題:用戶被視為被動接受建議的“無意義用戶”。但那些被要求使用該系統(tǒng)的醫(yī)生本應參與系統(tǒng)共同設計,定義數(shù)據(jù)需求,并驗證訓練數(shù)據(jù)。
真正需要改變的是什么:一個根本性的轉變
如果說企業(yè)需要改變一件根本性的事情,那就是:
不要再把人工智能當作人類的替代品,而應該把它當作軟件來對待。
光這一點就能解決所有問題。這就是困擾這個行業(yè)的價值6440億美元的基礎設施問題——他們僅僅因為它會說話就不把它當作傳統(tǒng)軟件來對待,這簡直愚蠢至極。
當你把人工智能當作軟件來對待時,你
- 實施版本控制(就像任何代碼一樣)
- 構建可觀測性(就像任何系統(tǒng)一樣)
- 確定性執(zhí)行架構(如同任何基礎設施)
- 使用集中式憑證管理(就像任何服務一樣)
- 明確定義輸入和輸出(就像任何API一樣)
- 根據(jù)可量化指標實施終止開關(就像任何流程一樣)
當你像對待人類一樣對待人工智能時:
- 通過對話進行協(xié)調(因為人類會說話)
- 給每個代理分配單獨的憑證(因為每個人都有登錄名)。
- 接受模糊的目標(因為人類可以通過對話進行澄清)。
- 忽略可觀察性(因為你相信人類會自我報告)
- 對話式界面營造了一種假象,整個行業(yè)都上當受騙了。
未來之路:真正可用于生產的基礎設施是什么樣的
實現(xiàn)可靠自主執(zhí)行的技術已經存在。目前所缺乏的是放棄對話式協(xié)調、轉而圍繞人工智能實際工作原理進行構建的意愿。
1.從一開始就構建人工智能所需的結構化數(shù)據(jù)
不要再把雜亂無章的文件夾堆放在模型中。要設計清晰易懂的模式、命名規(guī)范和明確的關系,確保信息易于訪問。要把數(shù)據(jù)架構視為最重要的基礎設施,而不是事后才考慮的因素。
2.制定清晰、可執(zhí)行且可衡量的目標。
將“提高效率”改為“處理所有供應商發(fā)票,提取明細,與采購訂單匹配,標記差異以供審核”。這樣才可行,空泛的愿景則不然。
3.從一開始就構建可觀測性和治理機制
所有自主操作都需要日志記錄、遙測數(shù)據(jù)和清晰的審計追蹤。代幣級監(jiān)控會在銷毀率飆升時發(fā)出警報——由可量化指標觸發(fā)的終止開關,以及對系統(tǒng)運行狀態(tài)及其原因的全面可見性。
4.圍繞概率模型構建確定性執(zhí)行架構
語言模型是隨機的。你的系統(tǒng)架構必須是確定性的。要建立防護機制,防止故障發(fā)生,而不是強迫人工智能表現(xiàn)完美。要構建約束,防止無限循環(huán)、成本失控以及超出定義邊界的行為。
5.集中管理憑證
一個具備適當身份驗證的執(zhí)行中心。中心調用的已注冊工具。無需數(shù)十個特權代理帳戶。將其視為軟件基礎設施,而非員工團隊。
6.將人安排在能夠創(chuàng)造價值的地方
將他們從毫無貢獻的確定性工作流程中移除。讓他們保留在創(chuàng)意方向、判斷和表達方面。目標不是裁員,而是把他們放在合適的位置。
最重要的是:要明白你不能簡單地將對話式人工智能移植到傳統(tǒng)的企業(yè)架構上就期望實現(xiàn)轉型。你必須從零開始重建協(xié)調層,并且要充分理解人工智能系統(tǒng)能夠可靠地完成哪些任務,不能完成哪些任務。
真正的問題
Gartner預測,人工智能代理將是2025年發(fā)展最快的技術。麥肯錫則指出,99%的企業(yè)尚未達到人工智能成熟階段。研究表明:企業(yè)需要構建支持人工智能自主運行的基礎設施。
他們描述的都是同一件事:人工智能基礎設施層尚未存在。
那些不再盲目追求對話式智能體,而是開始構建生產基礎設施的組織,終將獲得成功。他們會像對待軟件一樣對待人工智能,構建可靠性架構,而不是寄希望于更智能的模型來修復協(xié)調機制的缺陷。
問題不在于自主執(zhí)行是否可行,而在于你的組織是否愿意投入必要的架構工作,以確保其可靠性。2011年,每家公司都成為了大數(shù)據(jù)公司。2020年,每家公司都成為了數(shù)據(jù)治理公司。到了2025年及以后,每家公司都需要轉型為人工智能基礎設施公司。
問題是,在你弄明白之前,你會浪費掉這6440億美元中的多少。





























