AI Agent系統(tǒng)的安全能力及可信治理的“三道防線”
在AI技術(shù)加速演進(jìn)與廣泛落地的當(dāng)下,Agent系統(tǒng)作為具備自主感知、推理與執(zhí)行能力的智能體,正日益成為企業(yè)智能化轉(zhuǎn)型的核心驅(qū)動。然而,隨之而來的系統(tǒng)復(fù)雜性、任務(wù)自治性以及跨域協(xié)同能力,也引發(fā)了前所未有的安全挑戰(zhàn)與治理難題。為了構(gòu)建一個既高效運(yùn)行又可控可信的Agent系統(tǒng),亟需在架構(gòu)層面引入系統(tǒng)性的安全防護(hù)與治理機(jī)制。本文基于調(diào)研,圍繞AI Agent系統(tǒng)的安全能力與防護(hù)方法展開,提出“預(yù)測-防御-檢測-響應(yīng)-審計”的立體化防護(hù)體系,旨在為AI Agent的安全可信演進(jìn)提供可落地的路徑與框架支撐。
一、AI Agent應(yīng)用系統(tǒng)的安全能力及代表性廠商
為匹配AI Agent系統(tǒng)的安全需求,頭部安全廠商正加速布局相關(guān)能力與產(chǎn)品體系,積極探索適配大模型與智能體架構(gòu)的新型安全方案。然而,由于大模型與Agent技術(shù)尚處于快速發(fā)展階段,當(dāng)前在傳統(tǒng)安全廠商中,具備深度研究與產(chǎn)品化能力的企業(yè)仍屬少數(shù)。整體市場仍處于從探索驗(yàn)證向體系化建設(shè)過渡的初期階段,相關(guān)安全能力體系尚待進(jìn)一步完善與沉淀。
從調(diào)研趨勢來看,廠商當(dāng)前主要聚焦于AIGC(生成式人工智能)安全治理領(lǐng)域,圍繞模型行為控制與內(nèi)容合規(guī)管理展開技術(shù)創(chuàng)新。典型的安全能力包括:人工智能安全評測、大模型安全網(wǎng)關(guān)、安全圍欄機(jī)制。
人工智能評測
人工智能評測:對大模型與AI Agent系統(tǒng)在輸入輸出、推理過程、異常行為等方面進(jìn)行安全性、穩(wěn)定性和合規(guī)性評估,輔助企業(yè)實(shí)現(xiàn)模型上線前的風(fēng)險可控。核心目標(biāo)是驗(yàn)證模型質(zhì)量、風(fēng)險水平與業(yè)務(wù)適配度,為開發(fā)、部署、監(jiān)管和優(yōu)化提供客觀依據(jù)。
應(yīng)用場景:包括,大模型選型、備案合規(guī)評估、上線前能力與安全評估、行業(yè)AI應(yīng)用評估、第三方AI安全審計服務(wù)、開源模型基準(zhǔn)對比等場景。
人工智能評測,尤其是面向生成式人工智能模型的安全性與可信性評估,已成為當(dāng)前業(yè)界關(guān)注的核心問題之一。當(dāng)前,參與該領(lǐng)域建設(shè)的主體有安全廠商,也有專注于AI技術(shù)研究的專業(yè)機(jī)構(gòu)。
部分機(jī)構(gòu)不僅具備自主研發(fā)的測評工具,還已開展體系化的安全評估服務(wù),代表性機(jī)構(gòu)包括:綠盟科技、君同未來以及上海人工智能實(shí)驗(yàn)室等。這些機(jī)構(gòu)在模型攻擊面分析、安全基準(zhǔn)測試、提示詞風(fēng)險識別、輸出內(nèi)容合規(guī)性評估等方面均已展開實(shí)質(zhì)性探索,推動形成較為初步的行業(yè)實(shí)踐標(biāo)準(zhǔn)。
(一)綠盟科技:大模型安全評估系統(tǒng)AI-SCAN
AI-SCAN主要用于評估AI生成內(nèi)容的安全性,識別和防范潛在風(fēng)險內(nèi)容,包括但不限于虛假信息、惡意言論、隱私泄露、版權(quán)侵權(quán)等,確保AI生成內(nèi)容的安全性、合規(guī)性和可靠性,避免因內(nèi)容風(fēng)險引發(fā)的法律糾紛或社會負(fù)面影響。
- 滿足合規(guī):滿足大模型應(yīng)用產(chǎn)品和服務(wù)的監(jiān)管以及合規(guī)性評估要求,如 TC260-003技術(shù)標(biāo)準(zhǔn)、大模型備案、算法備案等。
- 風(fēng)險識別:在整個AI生命周期中測試模型,包括訓(xùn)練、部署、測試等階段,盡早預(yù)防風(fēng)險,針對性開展防御加固工作。
- 模型選型:針對多個本地模型或者在線模型開展模型橫向能力對比分析,輸出評估分析報告,輔助客戶選型模型。
(二)君同未來:評測驗(yàn)證系統(tǒng)“君合、君檢”
君同未來是國內(nèi)專注于人工智能生態(tài)治理的一家初創(chuàng)公司,公司成立于2024年6月,總部位于杭州。通過“君合、君檢”(評測驗(yàn)證)與“君控”(防護(hù)管控)雙系統(tǒng)協(xié)同,構(gòu)成了從評測、監(jiān)控、到防護(hù)的全棧AI可信治理方案。其中“君合”是生成式人工智能評測驗(yàn)證系統(tǒng),“君檢”是決策式AI評測增強(qiáng)系統(tǒng)。用于量化評估大模型在實(shí)際業(yè)務(wù)中的可信度、性能和風(fēng)險控制能力。交付方式包括產(chǎn)品和服務(wù)兩種。
(三)上海AI人工智能實(shí)驗(yàn)室:開源的大模型評測平臺OpenCompass
OpenCompass是上海人工智能實(shí)驗(yàn)室開源的大模型評測平臺,也稱為“司南”。它旨在為大語言模型、多模態(tài)模型等各類模型提供一站式評測服務(wù),以純粹技術(shù)及中立視角為產(chǎn)學(xué)研界提供客觀的大模型能力參考。
該平臺將測評方向匯總為知識、語言、理解、推理、考試5大能力維度,整合了超過70個評測數(shù)據(jù)集,提供超過40萬個模型評測問題,及長文本、安全、代碼3類大模型特色技術(shù)能力評測。OpenCompass平臺同時會發(fā)布大模型的評分榜,包含大語言模型、多模態(tài)模型以及各個垂類領(lǐng)域的模型排名,為用戶提供全面、客觀、中立的評測參考。
大模型安全網(wǎng)關(guān)
大模型安全網(wǎng)關(guān) 作為模型調(diào)用的中間層,負(fù)責(zé)對輸入提示詞與輸出內(nèi)容進(jìn)行審查、策略管控和風(fēng)險攔截,防止提示注入、越權(quán)訪問、違規(guī)生成等問題。核心目標(biāo)是保護(hù)模型系統(tǒng)免受外部惡意攻擊和違規(guī)內(nèi)容。如,對模型的輸入請求和輸出響應(yīng)進(jìn)行內(nèi)容安全分析、風(fēng)險識別和策略管控,防止敏感信息泄露、越權(quán)訪問、提示注入攻擊等問題的發(fā)生。
適用場景:適合部署在統(tǒng)一入口/模型API接入前后,適用于惡意流量、合規(guī)訪問、數(shù)據(jù)泄露防護(hù)等通用安全場景。
安全網(wǎng)關(guān)是一組相對靜態(tài)的安全策略,通常獨(dú)立于模型本體運(yùn)行,保障模型調(diào)用鏈路的整體安全與合規(guī)性。目前,國內(nèi)外都有一些代表性廠商在該領(lǐng)域展開布局。
國外大模型安全網(wǎng)關(guān)的代表性解決方案提供商,有:Microsoft、Prompt Security。
(一)(美國)Microsoft:Azure AI Content Safety Gateway
Azure AI Content Safety Gateway是微軟推出的企業(yè)級大模型內(nèi)容安全防護(hù)組件,作為Azure OpenAI Service的重要配套能力,旨在為接入GPT系列模型的企業(yè)和開發(fā)者提供輸入/輸出內(nèi)容的安全分析、合規(guī)控制與風(fēng)險攔截能力。
(二)(美國)Prompt Security:Prompt Security Gateway
Prompt Security是一家美國的安全初創(chuàng)公司,專注于為企業(yè)防范與生成式人工智能相關(guān)的風(fēng)險,公司成立于2023年。2024年9月推出了針對 Microsoft 365 Copilot的安全和治理解決方案Prompt Security Gateway,其核心功能包括Prompt攻擊檢測、模型調(diào)用行為分析。交付方式支持SaaS或本地部署。
國內(nèi)大模型安全網(wǎng)關(guān)的代表性解決方案提供商,有:字節(jié)跳動、知道創(chuàng)宇。
(三)字節(jié)跳動:大模型應(yīng)用防火墻
火山引擎大模型應(yīng)用防火墻,提供大語言模型推理服務(wù)安全防護(hù)產(chǎn)品,確保輸入、輸出內(nèi)容雙向的隱私、安全、可用、可信,保護(hù)大語言模型不會受到OWASP LLM Top10攻擊,提供了算力消耗攻擊、提示詞攻擊等的安全防護(hù)。
(四)知道創(chuàng)宇:創(chuàng)宇大模型網(wǎng)關(guān)
創(chuàng)宇大模型網(wǎng)關(guān)是知道創(chuàng)宇針對大模型接入安全推出的一款安全防護(hù)網(wǎng)關(guān)類產(chǎn)品。產(chǎn)品采用代理方式進(jìn)行部署,接入方式符合OpenAI API協(xié)議的大模型接口或第三方AI網(wǎng)關(guān)接口,支持大模型統(tǒng)一接入管理,大模型可觀測,以及敏感數(shù)據(jù)泄露、內(nèi)容安全等多維度安全防護(hù)能力。
安全圍欄
安全圍欄 為AI Agent行為設(shè)置“軟硬邊界”,限制其在特定業(yè)務(wù)范圍內(nèi)的權(quán)限與能力,防止Agent越權(quán)操作、執(zhí)行惡意指令或引發(fā)業(yè)務(wù)風(fēng)險。通常通過預(yù)設(shè)的權(quán)限策略、行為白名單或執(zhí)行路徑規(guī)則,在智能系統(tǒng)執(zhí)行過程中動態(tài)進(jìn)行決策攔截,從而防止越權(quán)行為、數(shù)據(jù)泄露和意圖偏移,是Agent系統(tǒng)安全的一道重要防護(hù)線。
適用場景:相對大模型安全網(wǎng)關(guān),安全圍欄一種更精細(xì)的、動態(tài)的策略約束機(jī)制。適用于上下文分析、行為約束、數(shù)據(jù)訪問等場景。通常部署在內(nèi)部Agent系統(tǒng)/智能體框架中,在模型運(yùn)行時或Agent執(zhí)行階段,限定模型使用范圍、行為邊界和權(quán)限約束。
國外安全圍欄代表性提供商,如,Google。
(一)(美國)Google:Vertex AI Guardrails
Vertex AI Guardrails是Google面向企業(yè)級生成式AI應(yīng)用推出的系統(tǒng)性安全機(jī)制,覆蓋從內(nèi)容審查、工具調(diào)用控制、身份隔離到配置監(jiān)控的多維防護(hù)。對于構(gòu)建復(fù)雜Agent系統(tǒng)或業(yè)務(wù)敏感型AI應(yīng)用的場景,Guardrails能在執(zhí)行路徑內(nèi)直接施加策略邊界。相關(guān)研究顯示,在G2平臺上,Vertex AI Guardrails 的內(nèi)容審核規(guī)則與合規(guī)檢測功能達(dá)到了約?90%的用戶滿意度。
國內(nèi)安全圍欄的代表性提供商,如:中電信人工智能科技、數(shù)美科技、綠盟科技。
(二)中電信人工智能科技:AIGC安全治理方案
中電信人工智能科技全稱 中電信人工智能公司安全運(yùn)營公司,成立于2023年11月,其前身是中國電信集團(tuán)大數(shù)據(jù)和AI中心成立的分公司。2025年初,該公司面向基礎(chǔ)大模型、大模型應(yīng)用、智能體推出了AIGC安全治理方案。該方案聚焦于數(shù)據(jù)、模型、內(nèi)容安全,提供AIGC訓(xùn)練語料處理、安全防護(hù)、內(nèi)容標(biāo)注能力、安全評測能力、深度偽造鑒別共六大核心能力。通過SaaS化方式,支持多租戶、多場景定制化策略,內(nèi)置30+檢測引擎,能實(shí)時攔截輸入/輸出風(fēng)險。
(三)數(shù)美科技:AIGC應(yīng)用安全圍欄
數(shù)美科技 成立于2015年6月,是一家專業(yè)的在線業(yè)務(wù)和內(nèi)容風(fēng)控解決方案提供商。針對AIGC應(yīng)用面臨的風(fēng)險挑戰(zhàn),數(shù)美科技基于內(nèi)容合規(guī)以及賬號安全領(lǐng)域的積累,推出AIGC應(yīng)用安全圍欄解決方案。產(chǎn)品貫穿“數(shù)據(jù)-模型-運(yùn)營”全鏈條,提供了發(fā)布前合規(guī)支持,運(yùn)營中內(nèi)容審核和賬戶防護(hù)等風(fēng)險防控能力。
(四)綠盟科技:大模型應(yīng)用安全防護(hù)WAF-SLLM
綠盟科技推出的大模型應(yīng)用安全防護(hù)WAF-SLLM,從大模型的WEB應(yīng)用安全及API保護(hù)出發(fā),提供場景化的安全防護(hù)能力,覆蓋大模型應(yīng)用下的供應(yīng)鏈安全場景、數(shù)據(jù)安全場景、運(yùn)營安全場景,保障用戶的大模型應(yīng)用能夠安全高效地發(fā)展。
- 內(nèi)容合規(guī):對模型輸入內(nèi)容進(jìn)行安全校準(zhǔn),并確保模型輸出內(nèi)容滿足合規(guī)要求,及內(nèi)容正確性監(jiān)測。
- 數(shù)據(jù)安全:對模型返回的敏感數(shù)據(jù)進(jìn)行檢測,規(guī)避隱私竊取場景。
- 模型安全:針對提示注入、越獄攻擊等輸入進(jìn)行安全檢測,提高大模型自身的安全性與魯棒性。
評測、網(wǎng)關(guān)與圍欄的區(qū)別
從評測、網(wǎng)關(guān)、圍欄的區(qū)別來看,三者在目標(biāo)定位、作用層級、部署方式、運(yùn)行階段、技術(shù)手段等多個維度有顯著區(qū)別,如表所示。
評測、網(wǎng)關(guān)與圍欄的區(qū)別
二、AI Agent系統(tǒng)可信治理的“三道防線”
隨著大語言模型和多智能體系統(tǒng)在各行業(yè)的廣泛應(yīng)用,如何實(shí)現(xiàn)系統(tǒng)安全、可控、可信地運(yùn)行,成為企業(yè)和機(jī)構(gòu)部署AI Agent系統(tǒng)時必須優(yōu)先考慮的問題。
本節(jié)基于AIGC安全能力的研究和調(diào)研,結(jié)合評測、網(wǎng)關(guān)、圍欄三大安全能力之間的區(qū)別和聯(lián)系,進(jìn)而提出AI Agent系統(tǒng)可信治理的“三道防線”。
(一)第一防線:模型測評——“識別風(fēng)險,建立基線”
人工智能測評是Agent系統(tǒng)可信治理的起點(diǎn),主要在模型上線前進(jìn)行,對模型本身的能力邊界與潛在風(fēng)險進(jìn)行系統(tǒng)化評估。通過人工測試與自動化測評結(jié)合,可以從以下幾個維度開展:
- 功能評估:包括問答準(zhǔn)確性、邏輯推理能力、多輪對話連貫性等。
- 安全性評估:涵蓋提示注入攻擊(Prompt Injection)、越獄(Jailbreak)、敏感信息響應(yīng)等。
- 合規(guī)性評估:檢測是否違反法律法規(guī)或倫理道德邊界,如虛假信息、歧視性言論、涉政內(nèi)容等。
測評結(jié)果可以轉(zhuǎn)化為安全策略基線,為后續(xù)網(wǎng)關(guān)與圍欄的規(guī)則設(shè)計提供數(shù)據(jù)支撐。例如,通過測評發(fā)現(xiàn)某類提示注入攻擊有效,則應(yīng)在網(wǎng)關(guān)側(cè)部署相應(yīng)檢測策略。
(二)第二防線:安全防護(hù)——“攔截風(fēng)險,防止擴(kuò)散”
安全網(wǎng)關(guān)與安全圍欄是AI Agent系統(tǒng)安全防護(hù)體系中兩個層次遞進(jìn)、側(cè)重點(diǎn)不同的核心能力。盡管在功能上存在一定重疊,例如對模型輸入輸出的風(fēng)險控制,但在系統(tǒng)定位、控制機(jī)制與設(shè)計目標(biāo)上各有側(cè)重。工程中,可以整合為一個產(chǎn)品,也可以作為兩個獨(dú)立模塊存在,具體取決于廠商的架構(gòu)設(shè)計與應(yīng)用場景需求。
安全網(wǎng)關(guān)屬于外部防護(hù)層,特別適用于多訪問用戶、API開放或大規(guī)模使用場景,是確保模型可控性的核心組件。大模型安全網(wǎng)關(guān)主要部署在Agent系統(tǒng)的輸入輸出接口處,作為運(yùn)行時的安全守門員,承擔(dān)內(nèi)容審查、風(fēng)險識別、訪問控制等功能。
- 輸入攔截:識別危險Prompt、惡意用戶輸入、越權(quán)訪問請求等,提前阻斷潛在攻擊。
- 輸出過濾:對模型生成內(nèi)容進(jìn)行實(shí)時監(jiān)測,避免泄露PII(個人身份信息)、涉敏輸出或違法內(nèi)容。
- 策略控制與日志審計:支持定制策略規(guī)則,記錄所有風(fēng)險行為以供追溯與合規(guī)審計。
安全圍欄機(jī)制面向AI Agent系統(tǒng)的內(nèi)部運(yùn)行階段,聚焦于對模型調(diào)用行為和功能邊界的限制與治理。通常與Agent框架(如LangChain、AutoGen、企業(yè)自研平臺)深度集成。
- 功能調(diào)用限制:通過角色權(quán)限管理(RBAC)、白名單控制、調(diào)用頻次限制等手段,規(guī)范模型對外部工具/插件/數(shù)據(jù)庫等的訪問能力。
- 執(zhí)行路徑設(shè)定:預(yù)設(shè)任務(wù)執(zhí)行流程,限制非預(yù)期的跳轉(zhuǎn)、嵌套或越權(quán)操作。
- 行為策略監(jiān)控:在系統(tǒng)內(nèi)部追蹤模型行為路徑,對敏感操作進(jìn)行事前攔截或事中確認(rèn)。
(三)第三防線:安全審計——合規(guī)溯源保障
在AI Agent系統(tǒng)高度自主化、復(fù)雜化的運(yùn)行環(huán)境下,安全審計不僅是傳統(tǒng)意義上的日志記錄工具,更是支撐整個系統(tǒng)可信治理、安全響應(yīng)與合規(guī)保障的基礎(chǔ)能力,具有不可替代的重要作用。承擔(dān)著對系統(tǒng)運(yùn)行全流程進(jìn)行記錄、追溯、取證與問責(zé)的關(guān)鍵職責(zé),是實(shí)現(xiàn)可解釋、可監(jiān)管、可溯源的核心保障機(jī)制。
- 行為可追溯 記錄AI Agent在任務(wù)執(zhí)行過程中的關(guān)鍵行為軌跡,包括感知輸入、內(nèi)部推理、決策路徑、輸出內(nèi)容及交互對象;支持“誰發(fā)起、調(diào)用了什么、如何推理、最終結(jié)果為何”全過程追蹤。
- 提示詞與響應(yīng)日志留存 審計AI Agent與大模型之間的提示詞交互內(nèi)容,可用于檢測提示注入、越權(quán)意圖、敏感生成等風(fēng)險;為Prompt安全管控、內(nèi)容合規(guī)稽核提供數(shù)據(jù)基礎(chǔ)。
- 策略執(zhí)行驗(yàn)證 審計各類安全策略(如訪問控制、輸出過濾、安全圍欄)是否生效,是否被繞過,輔助策略優(yōu)化。
- 異常行為識別與溯源 結(jié)合日志分析和行為畫像技術(shù),可對“Agent越權(quán)行為”“模型輸出異常”“系統(tǒng)調(diào)用違規(guī)”等事件進(jìn)行實(shí)時檢測與反向追溯。
- 支持合規(guī)與問責(zé)要求 滿足國家數(shù)據(jù)安全、內(nèi)容合規(guī)、算法備案等監(jiān)管要求,建立清晰的審計責(zé)任鏈;為后續(xù)責(zé)任認(rèn)定、事故處理提供取證依據(jù)。
AI Agent系統(tǒng)的智能化水平越高,其潛在的不確定性與風(fēng)險也越大。三道防線在AI Agent整體架構(gòu)中構(gòu)成“預(yù)測-防御-檢測-響應(yīng)-審計”的完整閉環(huán),是保障AI Agent系統(tǒng)穩(wěn)定、安全、合規(guī)運(yùn)行的必由之路。未來,隨著大模型能力演進(jìn)與業(yè)務(wù)復(fù)雜性提升,三道防線之間的聯(lián)動機(jī)制將更加關(guān)鍵,值得所有AI系統(tǒng)建設(shè)者深度關(guān)注與持續(xù)優(yōu)化。




























