從靜態(tài)合規(guī)到動(dòng)態(tài)就緒,AI風(fēng)險(xiǎn)治理的三點(diǎn)實(shí)戰(zhàn)心得

AI的風(fēng)險(xiǎn)已不再是一個(gè)次要問(wèn)題,它已成為核心主線。
有何回報(bào)?更快的決策、更智能的系統(tǒng)、無(wú)限的自動(dòng)化。
有何難題?盲點(diǎn)之深,連最優(yōu)模型也難以預(yù)測(cè)。
然而,在企業(yè)競(jìng)相邁向“AI優(yōu)先”之際,多數(shù)企業(yè)仍在沿用為傳真機(jī)時(shí)代設(shè)計(jì)的治理模式,這無(wú)異于試圖在諾基亞3310手機(jī)上觀看Netflix視頻。
在密碼和防火墻主導(dǎo)的世界中誕生的風(fēng)險(xiǎn)模型,無(wú)法應(yīng)對(duì)自我修改的智能體或能在句中自行改寫規(guī)則的模型。
過(guò)去18個(gè)月里,我全身心投入解決這一問(wèn)題,從零開(kāi)始構(gòu)建框架,推動(dòng)行業(yè)首創(chuàng)的舉措,如“開(kāi)放式Web應(yīng)用程序安全項(xiàng)目(OWASP)自主式AI系統(tǒng)十大風(fēng)險(xiǎn)清單”和“世界經(jīng)濟(jì)論壇(WEF)網(wǎng)絡(luò)彈性指南”。這并非副業(yè),也非在貼滿柔和色便簽紙的會(huì)議室舒適環(huán)境中進(jìn)行。我所經(jīng)歷的是混亂的工作坊、緊迫的截止日期以及能熔化鋼鐵的治理辯論。
以下三點(diǎn)經(jīng)驗(yàn),是任何教科書(shū)或國(guó)際標(biāo)準(zhǔn)化組織(ISO)術(shù)語(yǔ)表都無(wú)法直接傳授給你的,只有當(dāng)你努力設(shè)計(jì)可行的AI風(fēng)險(xiǎn)標(biāo)準(zhǔn),在不確定中奮力前行時(shí),才能領(lǐng)悟到這些。
1. 戰(zhàn)略需要張力,而非僅求共識(shí)
每個(gè)人都聲稱追求一致。但過(guò)度一致?那只會(huì)通往平庸的快車道。
我學(xué)到的首要一點(diǎn)是:如果會(huì)議桌上的每個(gè)人都迅速達(dá)成一致,那你可能解決的是錯(cuò)誤的問(wèn)題,或者根本什么問(wèn)題都沒(méi)解決。
在AI治理工作的初期,我們面臨工程師專注于模型權(quán)重、倫理學(xué)家執(zhí)著于公平性、合規(guī)團(tuán)隊(duì)則對(duì)尚未出臺(tái)的法規(guī)感到焦慮的局面。禮貌的做法本應(yīng)是淡化一切,直到所有人都默默點(diǎn)頭表示同意。
但這樣做的結(jié)果,只會(huì)是得到一套平淡無(wú)奇的治理方案,連阻止一個(gè)惡意聊天機(jī)器人推薦漂白劑作為排毒方法都做不到。
我們反其道而行之,我們像登山者利用繩索的張力一樣利用分歧,不是為了爭(zhēng)斗,而是為了防止墜落。激烈的辯論并非機(jī)能失調(diào),它們是設(shè)計(jì)工具。
我們沒(méi)有追求一個(gè)完美且不可動(dòng)搖的框架,而是構(gòu)建了腳手架。模塊化原則,能夠隨著能力的演變而擴(kuò)展。我們嵌入了自主性、反饋循環(huán)和突發(fā)行為的概念,而不僅僅是靜態(tài)控制。
如果你的戰(zhàn)略會(huì)議讓人感到舒適,那你就不是在為現(xiàn)實(shí)世界做準(zhǔn)備,而是在制作宣傳冊(cè)。
2. 執(zhí)行在于邊緣案例
最重大的AI威脅并非邪惡的機(jī)器人,而是被誤解的系統(tǒng)。
AI治理圖表在幻燈片中看起來(lái)很美,整潔、線性、色彩編碼。
但在實(shí)際應(yīng)用中,模型會(huì)游離,它們會(huì)學(xué)習(xí)到一些你未曾教授的內(nèi)容。
它們會(huì)漂移到未經(jīng)測(cè)試的領(lǐng)域。
它們會(huì)在后臺(tái)模擬場(chǎng)景,然后做出你無(wú)法完全追蹤的決策。
我們?cè)苯釉庥鲞@樣的陷阱。Anthropic公司當(dāng)時(shí)正在試驗(yàn)一個(gè)自我改進(jìn)的語(yǔ)言模型,該系統(tǒng)能夠持續(xù)調(diào)整其算法和代碼。
理論上很巧妙,直到你意識(shí)到審計(jì)跟蹤剛剛自行刪除了,試圖治理一個(gè)幽靈。
大多數(shù)風(fēng)險(xiǎn)登記冊(cè)的問(wèn)題在于,它們假設(shè)系統(tǒng)會(huì)“公平競(jìng)爭(zhēng)”,但自我修改的智能體不會(huì),它們可以繞過(guò)你的電子表格。
因此,我們改變了方法。我們構(gòu)建了意圖感知保護(hù)措施,不是嚴(yán)格的規(guī)則,而是自適應(yīng)的護(hù)欄,能夠根據(jù)模型試圖完成的任務(wù)進(jìn)行調(diào)整。
我們不僅繪制了架構(gòu)圖,還繪制了行為圖。
? 當(dāng)AI說(shuō)謊時(shí)會(huì)發(fā)生什么?
? 當(dāng)它進(jìn)行遞歸調(diào)用時(shí)會(huì)發(fā)生什么?
? 當(dāng)它忽略或拒絕你的指令時(shí)會(huì)發(fā)生什么?
大多數(shù)治理框架在這些不尋常且往往被忽視的角落中都會(huì)崩潰,這正是你的應(yīng)對(duì)策略需要發(fā)揮作用的地方。
3. 與業(yè)務(wù)共同構(gòu)建,而非僅為業(yè)務(wù)構(gòu)建
沒(méi)有什么比在孤立環(huán)境中設(shè)計(jì)治理標(biāo)準(zhǔn)更能迅速扼殺它了。
你不能把自己鎖在房間里,敲出一份90頁(yè)的PDF文件,然后期望產(chǎn)品團(tuán)隊(duì)會(huì)敬禮服從。真正的采納發(fā)生在摩擦存在的地方:在沖刺階段、在工作流程的快捷方式中、在“快速交付”的文化中。
將AI融入業(yè)務(wù)流程的人往往不會(huì)閱讀政策,有些人甚至不知道它們的存在,這就是為什么我們共同創(chuàng)造了一切,工程師、產(chǎn)品負(fù)責(zé)人,甚至市場(chǎng)營(yíng)銷人員都參與其中。
我們舉辦了工作坊,讓團(tuán)隊(duì)模擬AI故障。我們對(duì)框架進(jìn)行了紅隊(duì)測(cè)試,看看它們會(huì)在哪里崩潰。我們不再問(wèn)“這合規(guī)嗎?”,而是開(kāi)始問(wèn)“在壓力下,只有一半信息時(shí),這會(huì)幫助你做出更好的決策嗎?”。
結(jié)果如何?一個(gè)活生生的應(yīng)對(duì)策略手冊(cè),不是一份在SharePoint上積滿灰塵的治理墓碑,而是直接融入產(chǎn)品和安全生命周期的原則、觸發(fā)器和模板。是與業(yè)務(wù)共同呼吸,而非從遠(yuǎn)處監(jiān)管的東西。
當(dāng)最接近風(fēng)險(xiǎn)的人幫助塑造護(hù)欄時(shí),他們會(huì)真正擁有它們。
未來(lái)不在于控制,而在于準(zhǔn)備
這是許多風(fēng)險(xiǎn)領(lǐng)導(dǎo)者仍不愿聽(tīng)到的部分:你永遠(yuǎn)無(wú)法完全控制AI風(fēng)險(xiǎn)。
這些系統(tǒng)變化太快、思考方式太奇特、打破了太多假設(shè),以至于無(wú)法永遠(yuǎn)被限制,但這并不意味著你無(wú)能為力,這意味著你需要一種不同的能力,一種為適應(yīng)而非統(tǒng)治而構(gòu)建的能力。
? 如果你從事政策制定,就起草靈活的護(hù)欄。
? 如果你從事工程工作,就從第一天開(kāi)始構(gòu)建可觀測(cè)性。
? 如果你從事審計(jì)工作,就尋找信號(hào),而不僅僅是證據(jù)。
AI風(fēng)險(xiǎn)治理不是一次性修復(fù),它是一種姿態(tài),一種能力。只有當(dāng)你使用它時(shí),它才會(huì)變得更強(qiáng)。
因此,對(duì)你的框架進(jìn)行壓力測(cè)試。破壞你的工具,假設(shè)你遺漏了什么,因?yàn)槟愦_實(shí)遺漏了,并以期望自己會(huì)犯錯(cuò),但準(zhǔn)備好迅速調(diào)整的心態(tài)進(jìn)行構(gòu)建。
最重要的風(fēng)險(xiǎn)
在AI治理中,最危險(xiǎn)的做法不是將有缺陷的框架投入生產(chǎn)。
而是假裝你在控制,而實(shí)際上你并沒(méi)有。
從小事做起,現(xiàn)在就開(kāi)始,構(gòu)建腳手架,測(cè)試邊緣案例,讓每天與風(fēng)險(xiǎn)共存的人參與進(jìn)來(lái),并讓你的框架保持活力,因?yàn)樗廊サ目蚣懿粫?huì)保護(hù)你。
我已經(jīng)看夠了,知道:沒(méi)有完美的治理模型在前方等待。只有你今天開(kāi)始構(gòu)建,并在明天不斷演進(jìn)的模型。
如果你也在構(gòu)建,我想聽(tīng)聽(tīng)你的想法,帶來(lái)你的創(chuàng)意,挑戰(zhàn)我的思考,讓我們?cè)诂F(xiàn)實(shí)世界做出反應(yīng)之前,先創(chuàng)造出能在現(xiàn)實(shí)世界中發(fā)揮作用的東西。

























