從單點崩潰到全面失靈:為什么單云架構(gòu)正在成為企業(yè)最大的業(yè)務(wù)威脅?

一次云服務(wù)中斷就可能波及數(shù)千家公司,如今構(gòu)建冗余系統(tǒng)以抵御單一供應(yīng)商故障已成為必要之舉。
2025年10月20日星期一早上,我登錄醫(yī)療保健服務(wù)提供商的門戶網(wǎng)站去支付賬單。
我致電該服務(wù)提供商打算通過電話支付,然而他們卻無法受理我的付款,原因是其內(nèi)部系統(tǒng)也宕機(jī)了,這讓我們這些客戶無所適從,不知道接下來該怎么辦。
我醫(yī)療保健服務(wù)提供商的SaaS系統(tǒng)功能完好無損,然而其集成的支付供應(yīng)商所依賴的AWS基礎(chǔ)設(shè)施,顯然冗余機(jī)制失效了。所以,2025年10月20日AWS的這次服務(wù)中斷,給任何希望使用這項重要功能的客戶或員工都帶來了極為糟糕的體驗,同時也阻礙了我的醫(yī)療保健機(jī)構(gòu)獲取收入。
這該怪誰呢?是AWS?還是支付供應(yīng)商?歸根結(jié)底,我的醫(yī)療保健服務(wù)提供商要為其客戶(以及員工)無法正常使用其服務(wù)負(fù)責(zé)。云服務(wù)中斷并不像颶風(fēng)、地震、龍卷風(fēng)等自然災(zāi)害那樣不可抗拒,但我們卻常常將其視作自然災(zāi)害,這顯然是錯誤的,因為這些中斷是可以通過措施加以緩解的。
這顯然是一個在行業(yè)內(nèi)極為常見的問題:云計算彈性策略的采用和執(zhí)行不力,導(dǎo)致為客戶和員工提供的關(guān)鍵服務(wù)不可靠。
據(jù)AWS發(fā)布的《美國弗吉尼亞北部(美國東部1區(qū))亞馬遜DynamoDB服務(wù)中斷情況總結(jié)》報告,DynamoDB的DNS管理系統(tǒng)存在一個潛在的競態(tài)條件,導(dǎo)致美國東部區(qū)域端點出現(xiàn)空的DNS記錄,進(jìn)而引發(fā)解析失敗,影響了客戶和AWS內(nèi)部服務(wù)的連接。此次故障對以下服務(wù)產(chǎn)生了不利影響:Lambda、ECS、EKS、Fargate、Amazon Connect、STS、IAM控制臺登錄以及Redshift。
2024年10月29日,由于部署了存在問題的代碼變更,微軟365(m365.cloud.microsoft或portal.office.com)出現(xiàn)了服務(wù)中斷。此次故障影響了微軟365管理中心、Entra、Purview、Defender、Power Apps、Intune以及Outlook中的插件和網(wǎng)絡(luò)連接,微軟在《用戶訪問m365.cloud.microsoft或portal.office.com時可能遇到問題》文檔中對此進(jìn)行了詳細(xì)說明。
這兩次近期的服務(wù)中斷都迫使供應(yīng)商停止自動化流程,并手動進(jìn)行恢復(fù)操作,以使受影響的系統(tǒng)重新恢復(fù)正常運(yùn)行。我們必須正視現(xiàn)實:云服務(wù)提供商并非無所不能,它們和企業(yè)一樣,都要遵循相同的恢復(fù)模式。
服務(wù)中斷是任何系統(tǒng)或平臺都無法避免的現(xiàn)實,幾乎會影響到每一家企業(yè),因此:
你的云服務(wù)提供商就是一個單點故障源!
企業(yè)的基礎(chǔ)設(shè)施策略各不相同,有的完全依賴供應(yīng)商,有的則積極掌控主動權(quán),為關(guān)鍵系統(tǒng)構(gòu)建必要的冗余機(jī)制。當(dāng)?shù)讓庸?yīng)商出現(xiàn)服務(wù)中斷時,這往往會促使企業(yè)重新審視自身的彈性策略,即便企業(yè)并未直接受到此次中斷的影響。
在審視企業(yè)的容錯架構(gòu)時(實際上這種架構(gòu)很少存在),或許我們更應(yīng)該考慮容錯規(guī)避架構(gòu),后者在出現(xiàn)問題時發(fā)揮作用,而前者則主動監(jiān)控觸發(fā)因素以避免問題發(fā)生。
這種自我審視往往被忽視,因為企業(yè)很容易陷入相信那些主導(dǎo)其IT戰(zhàn)略和運(yùn)營的諸多錯誤觀念之中,尤其是在涉及云計算方面。
揭開這些錯誤觀念的面紗
錯誤觀念一:使用單一云服務(wù)提供商可降低復(fù)雜性
供應(yīng)商會拿出各種研究和激勵措施,向企業(yè)領(lǐng)導(dǎo)層證明鎖定其平臺符合公司的最佳利益。讓我們明確一點:這永遠(yuǎn)只符合供應(yīng)商的最佳利益。這一觀念隨后從領(lǐng)導(dǎo)層傳遞給工程師,工程師們被鼓勵相信領(lǐng)導(dǎo)層所說的話,于是我們便陷入了一種局面,成千上萬的公司都受制于單一供應(yīng)商,這很可怕,不是嗎?
在多區(qū)域彈性、應(yīng)用跨區(qū)域彈性、降低故障影響范圍以及彈性應(yīng)用模式等方面,確實會增加復(fù)雜性。要知道,這些方法都依賴于經(jīng)過精細(xì)調(diào)優(yōu)的復(fù)雜云基礎(chǔ)設(shè)施,這意味著沒有捷徑可走。
錯誤觀念二:云平臺組件的默認(rèn)設(shè)置通常是良好的起點
依賴所謂的“捷徑式”最佳實踐,往往會讓企業(yè)陷入困境。IT云基礎(chǔ)設(shè)施團(tuán)隊的責(zé)任是與解決方案架構(gòu)師和工程師合作,對設(shè)計方案進(jìn)行精細(xì)調(diào)整,在控制成本的同時,優(yōu)化效率、彈性和性能。云供應(yīng)商的默認(rèn)配置是必要的,它們?yōu)橄到y(tǒng)設(shè)置了一個功能性的起點,但絕不能將其視為可靠的設(shè)計方案。實際上,如果不加以檢查,這些默認(rèn)配置可能會在默認(rèn)區(qū)域產(chǎn)生不必要的巨大負(fù)載。從歷史數(shù)據(jù)來看,AWS美國東部1區(qū)是受服務(wù)中斷影響最嚴(yán)重的區(qū)域,然而卻有如此多的關(guān)鍵企業(yè)系統(tǒng)僅在該區(qū)域運(yùn)行。
供應(yīng)商提供的即插即用架構(gòu)在投入生產(chǎn)之前必須經(jīng)過嚴(yán)格審查。
負(fù)責(zé)任的架構(gòu)治理實踐應(yīng)制定政策,避免使用已知的易發(fā)生故障的區(qū)域和單點故障配置,這些政策應(yīng)在架構(gòu)審查委員會進(jìn)行審查,通過后才能投入生產(chǎn)。
錯誤觀念三:我的云服務(wù)提供商/供應(yīng)商會照顧好我
服務(wù)水平協(xié)議(SLA)所支付的服務(wù)積分是與受影響服務(wù)的成本掛鉤的,而不是現(xiàn)金退款,這些積分通常從服務(wù)費(fèi)用的10%起算,企業(yè)不會因此遭受損失。實際上,企業(yè)損失的每一美元,只能拿回幾分錢的積分。
2024年7月,CloudStrike的服務(wù)中斷給其自身造成了約7500萬美元的損失,另外還支付了6000萬美元的服務(wù)積分,然而,與僅一家客戶——達(dá)美航空公司就凈損失了5億美元相比,這簡直是小巫見大巫。Parametrix保險公司的詳細(xì)分析估計,美國財富500強(qiáng)企業(yè)因此次中斷遭受的直接財務(wù)損失總計達(dá)54億美元。CloudStrike實際上只是為其錯誤支付了極少的代價,因此企業(yè)在依賴供應(yīng)商時必須認(rèn)清這一現(xiàn)實,并做好管理。
2025年11月18日,Cloudflare的服務(wù)中斷影響了全球20%的網(wǎng)絡(luò)流量,同樣波及了數(shù)億個賬戶,包括X(原推特)、OpenAI/ChatGPT、谷歌的Gemini、Perplexity AI、Spotify、Canva,甚至所有三大云服務(wù)提供商,這凸顯了企業(yè)對單一供應(yīng)商/平臺的依賴對業(yè)務(wù)連續(xù)性構(gòu)成的真正威脅。
企業(yè)必須自我保護(hù),因為供應(yīng)商不會這么做。
未來的采購和合同談判應(yīng)轉(zhuǎn)向基于企業(yè)損失而非企業(yè)服務(wù)成本的SLA處罰條款,不幸的是,這會導(dǎo)致服務(wù)成本上升,但在依賴自身無法控制的系統(tǒng)時,這能提供更好的財務(wù)保障。
錯誤觀念四:多云部署成本過高且要求苛刻
為了減輕區(qū)域性云服務(wù)中斷的影響,采用多云架構(gòu)的企業(yè)若以容錯規(guī)避、可移植性和故障轉(zhuǎn)移編排為重點,在實施過程中若能兼顧容錯規(guī)避以及成本和性能優(yōu)化,往往會發(fā)現(xiàn)額外的益處,這意味著多個觸發(fā)因素將決定工作負(fù)載的運(yùn)行位置,從而實現(xiàn)最佳效率。
這需要企業(yè)高層的大力支持,并且需要企業(yè)文化發(fā)生轉(zhuǎn)變才能取得成功,因此多云部署極為罕見。不過,那些已經(jīng)實施多云部署的企業(yè)所獲得的益處遠(yuǎn)不止于彈性(例如,像沃爾瑪、高盛、通用電氣和寶馬這樣的大型企業(yè),以及像FirstDigital、Visma和Assorted Data Protection這樣的小型企業(yè))。
美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)發(fā)布的《云聯(lián)邦參考架構(gòu)》(NIST Special Publication 500-332)是一份很好的文檔,可為這些概念奠定基礎(chǔ)。
? 主動-主動彈性模式適用于關(guān)鍵任務(wù)應(yīng)用(例如金融交易、醫(yī)療保健、電子商務(wù)結(jié)賬),它通過復(fù)制基礎(chǔ)設(shè)施和復(fù)雜的同步機(jī)制,最大限度地提高了彈性和可用性,但成本也相對較高,這種模式最適合容錯規(guī)避,具備主動優(yōu)化效率和觸發(fā)因素的所有優(yōu)勢。
? 主動-被動故障轉(zhuǎn)移模式是指由一個主云處理所有流量,一個備用云處于待命狀態(tài),它提供了災(zāi)難恢復(fù)能力,且成本低于主動-主動模式,但會出現(xiàn)一些停機(jī)時間,并且需要強(qiáng)大的復(fù)制策略,顯然,這只是一種容錯方法。
? 云爆發(fā)模式是指應(yīng)用程序主要在一個云中運(yùn)行,但在需求激增時“爆發(fā)”到另一個云中,從而在不進(jìn)行過度配置的情況下提供彈性擴(kuò)展能力,它還能提供一定程度的容錯能力。
? 工作負(fù)載分區(qū)(最優(yōu)部署)模式是指根據(jù)不同云服務(wù)提供商的優(yōu)勢,將不同的工作負(fù)載分配給最適合的提供商,這種模式通過利用各提供商的優(yōu)勢,極大地優(yōu)化了性能、合規(guī)性和成本,但并不具備完全的容錯能力。
錯誤觀念五:云計算已經(jīng)失敗,是時候放棄了
每次發(fā)生重大云服務(wù)中斷時,都會出現(xiàn)這種反復(fù)出現(xiàn)的論調(diào),而且往往與本地部署與云計算的成本比較(沒錯,云計算的成本幾乎總是更高)緊密相關(guān)。現(xiàn)實情況是,雖然云計算在整個基礎(chǔ)設(shè)施戰(zhàn)略中確實具有真正的價值,但同樣重要的是要優(yōu)先考慮對基礎(chǔ)設(shè)施選擇進(jìn)行投資,并采用合理的混合策略,兩種有效的戰(zhàn)略架構(gòu)基于邊緣計算和Kubernetes,邊緣計算可縮小故障影響范圍,而Kubernetes則可在不同供應(yīng)商之間提供可移植的彈性,當(dāng)與工作負(fù)載架構(gòu)和運(yùn)營成熟度保持一致時,這兩種架構(gòu)都值得推薦。
? 邊緣集成彈性將工作負(fù)載擴(kuò)展到邊緣,同時與中央云保持同步,即使云連接中斷,本地邊緣節(jié)點也能繼續(xù)運(yùn)行,并在重新連接后協(xié)調(diào)狀態(tài),除了增加一定程度的彈性外,它還受益于超低延遲的實時處理能力(例如物聯(lián)網(wǎng)、制造機(jī)器人、自動駕駛汽車),這種方法常見于工廠、零售店和分支機(jī)構(gòu)的使用場景。
? Kubernetes編排的彈性是一種與云無關(guān)的編排層,可在本地和多個供應(yīng)商之間加以利用,除了具備顯著的彈性外,這種服務(wù)網(wǎng)格(例如Istio、Linkerd)還增加了流量路由和故障轉(zhuǎn)移能力,降低了對供應(yīng)商的依賴,總體而言,它是實現(xiàn)多云的基礎(chǔ)推動因素,為企業(yè)提供了跨供應(yīng)商和本地部署的一致控制平面。
行動呼吁
企業(yè)IT領(lǐng)導(dǎo)層主要存在兩大偏見陣營:“自建”和“采購”,這兩個陣營在每個企業(yè)中都會產(chǎn)生影響。
上述參考架構(gòu)模式針對的是“自建”偏好的工作負(fù)載,其中也包括與“采購”工作負(fù)載的集成。
“采購”偏好的工作負(fù)載往往受制于上述供應(yīng)商定義的SLA,這些SLA的限制極為嚴(yán)格,僅根據(jù)服務(wù)中斷的持續(xù)時間,以10% - 100%的信用積分作為處罰。現(xiàn)實情況是,這種情況確實不太可能改變,不過,過去20年來,SaaS的質(zhì)量已大幅提高。
這成為了新的標(biāo)準(zhǔn),也為企業(yè)提供了一個很好的衡量指標(biāo),企業(yè)可以借此來衡量自身及其供應(yīng)商:
“1 - 9挑戰(zhàn)”:每個SaaS供應(yīng)商、集成商和企業(yè)內(nèi)部解決方案都應(yīng)提供一個比其底層單個托管平臺更高的“9”級別的服務(wù)水平。
例如,當(dāng)每個云供應(yīng)商為某項服務(wù)提供99.9%的SLA時,利用主動-主動多云架構(gòu)可將該SLA提升至遠(yuǎn)高于99.99%的水平。
首先掌控好你的關(guān)鍵服務(wù),并將這些模式作為未來新舉措的基準(zhǔn),讓高彈性成為你的新常態(tài)。
歸根結(jié)底:企業(yè)始終要對自己的彈性負(fù)責(zé),是時候承擔(dān)起這份責(zé)任并掌控局面了!

























