ICCV 2025 | 新型后門攻擊直指Scaffold聯邦學習,NTU聯手0G Labs揭示中心化訓練安全漏洞
通過使用控制變元(control variate)來校準每個客戶端的本地梯度,Scaffold 已被廣泛認為是緩解聯邦學習中數據異質性影響的一種強大方案。但盡管 Scaffold 實現了顯著的性能提升,這種優越性是以增加安全漏洞為代價的。
本文中,NTU、0G Labs等機構提出了 BadSFL,這是首個針對 Scaffold 的后門攻擊方法,它能夠將原本良性的客戶端轉化為攻擊的幫兇以放大攻擊效果。
BadSFL 的核心思想是在不引人注意的情況下,篡改控制變元,從而巧妙地引導良性客戶端的本地梯度更新朝著攻擊者設定的「中毒」方向前進,有效地使它們在無意間成為協助者,顯著增強了后門的持久性。
另外,BadSFL 利用一個經過生成對抗網絡(GAN)增強的數據投毒策略,豐富了攻擊者的數據集,在保持對正常樣本和后門樣本都具有高精度識別能力的同時,保持隱蔽性。
大量實驗證明,BadSFL 在攻擊持續性方面表現出色,即使在停止惡意模型注入之后,仍能維持超過 60 輪的攻擊效果——比現有基準方法持續時間長達三倍。
該論文已經入選 ICCV 2025。

- 論文標題:Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack
- 論文鏈接:https://arxiv.org/abs/2411.16167
引言
聯邦學習(Federated Learning,簡稱 FL)在保護客戶端數據隱私的同時,實現了分布式模型訓練。然而,FL 模型的有效性在很大程度上取決于訓練數據在各客戶端之間的分布情況。通常存在以下兩種場景:1)IID 數據:訓練數據在各客戶端之間均勻分布;2)非 IID 數據:更符合現實的數據分布情況,即各客戶端的數據特征存在顯著差異。在 IID 場景下,已有工作 FedAvg 脫穎而出,它通過聚合來自客戶端的模型參數,設定了服務器端模型更新的標準。然而,在非 IID 場景中,其性能會顯著下降。由于數據異質性,不同客戶端的更新方向存在偏移,最終導致模型收斂效果變差。
為應對這一挑戰,Scaffold 作為一種穩健的聯邦學習(FL)方法被提出,旨在通過基于控制變元(control variates)的校正機制來減緩客戶端更新的偏移,從而提升在非 IID 場景下的模型收斂性。控制變元本質上是對客戶端本地梯度與全局梯度之間差異的估計,它有助于將本地更新方向與全局優化目標對齊。Scaffold 能夠減少由于數據異質性引起的更新方差,使其在客戶端擁有多樣化數據分布的場景中表現尤為出色。
然而,Scaffold 聯邦學習(SFL)不僅改變了 FL 模型的收斂方式,也影響了其對抗惡意操控的魯棒性。具體而言,聯邦學習中的惡意客戶端可以利用模型更新機制注入后門行為,將隱藏的異常行為植入全局模型中。盡管已有大量研究關注 FL 中的后門攻擊,但大多數現有工作主要聚焦于 IID 場景,在這些場景中,攻擊者對數據集分布具有完全認知,因此可以輕松構造中毒更新。相比之下,非 IID 數據分布引入了額外的限制,使得攻擊者更難在不顯著降低整體性能的前提下,將中毒模型與全局模型對齊。雖然近期已有研究開始探索非 IID 聯邦學習中的后門攻擊,但這些研究在很大程度上忽視了 SFL 引入的獨特安全隱患。
因此,本論文旨在探討的問題是:「SFL 的新機制(即用于校正更新偏移的控制變元)是否可能引入新的安全威脅,并在非 IID 場景中無意間為后門攻擊提供便利?」
我們對上述問題的回答是肯定的。我們的新發現是:Scaffold 對控制變元的依賴引入了一種新的攻擊面 —— 其原本用于通過將本地更新與全局目標對齊以穩定訓練過程的校正機制,實際上可能在無意中放大了惡意更新的影響。更關鍵的是,這一機制允許攻擊者直接影響控制變元本身,從而有效地將良性客戶端「招募」為協助實施攻擊的幫兇。
由于所有客戶端在更新過程中都會使用控制變元來調整本地梯度,因此一旦控制變元被篡改,就可以在不易察覺的情況下引導這些誠實客戶端的梯度朝著攻擊者設定的「中毒方向」演化。這種方式極大地增強了后門攻擊的傳播范圍,使得 Scaffold 比沒有類似校正機制的標準 FL 方法(如 FedAvg)更容易受到復雜攻擊的影響。
為了利用上述發現,我們提出了一種專門針對 Scaffold 聯邦學習(SFL)的新型后門攻擊方法 ——BadSFL,該方法能夠在不顯著破壞模型對正常樣本推理性能的前提下,成功地將后門功能植入全局模型。
與以往的攻擊方法不同,BadSFL 利用了 Scaffold 的校正機制,不僅增強了后門的隱蔽性,還提升了其持久性,從而揭示了 SFL 方法中的一個關鍵漏洞。BadSFL 的運作流程包括如下:
- GAN 補全數據知識:由于攻擊者只能部分掌握 FL 系統中的數據分布信息,他通過使用生成對抗網絡(GAN)生成屬于其他客戶端的數據樣本來補充自身數據集,從而模擬出對整體數據分布的全面認知。在此補充數據集上進行后門訓練后,攻擊者可以獲得在后門任務和正常任務上都表現良好的后門模型。
- 隱蔽后門觸發器設計:攻擊者選擇某個類別中的特征作為后門觸發器,從而保持攻擊的隱蔽性。
- 操控全局控制變元:攻擊者利用全局控制變元作為參考,用于預測全局模型的收斂方向。這一優化策略顯著增強了后門功能在全局模型中的持久性。
聯邦學習中的非 IID 場景
在聯邦學習(FL)中,非 IID 是指客戶端之間的數據分布存在顯著差異。在非 IID 場景下,這種本地數據分布的不一致會導致本地最優解與全局最優解之間存在偏差。這種偏差會引發本地模型更新的漂移現象,即本地模型傾向于朝著各自的本地最優解前進,而這些本地最優解可能與全局最優解相距甚遠。因此,將這些本地模型進行平均時,得到的全局模型可能會偏離真實的全局最優解,尤其是在存在大量本地訓練輪次的情況下。
如下圖 1 所示,在 IID 場景下,全局最優解與本地最優解相對一致,而在非 IID 場景下,全局最優解可能與單個本地最優解相距較遠,這一現象被稱為客戶端漂移(client-drift),從而導致 FL 訓練過程中的收斂變慢且不穩定。

為了解決上述挑戰,學術界已經提出了多種聯邦學習(FL)算法,其中 Scaffold 是最為實用的解決方案。它通過在服務器端和客戶端同時使用控制變元(即方差縮減技術)來應對客戶端漂移問題。這些控制變元能夠估計全局模型與本地客戶端模型的更新方向,并根據漂移對本地更新進行校正,從而減少本地最優解與全局最優解之間的偏差(見算法 1)。在本文中,我們主要聚焦于針對 SFL(Scaffold Federated Learning)的后門攻擊設計。

后門攻擊在 SFL 中的挑戰
在 SFL(Scaffold Federated Learning) 中實施后門攻擊面臨以下挑戰:
- 知識有限。 在非 IID 場景中,攻擊者對各客戶端數據分布缺乏了解,這是主要挑戰之一。與 IID 場景不同,在 IID 中對數據集有集中化的認知,有利于攻擊者操控;而非 IID 場景涉及分散且多樣化的數據分布。這會導致以下三個問題:
- 直接的后門策略可能會導致良性樣本上的性能大幅下降,從而使全局模型被拒絕;
- 數據分布的差異性加劇了本地模型與全局模型之間的差距,使得惡意模型更容易被檢測到;
- 將中毒模型與全局模型平均聚合會降低其在主要任務上的性能。
- 控制變元。 在 SFL 中,控制變元(記為 c_i)用于糾正客戶端漂移,使本地模型與全局模型對齊。如果攻擊者嚴格遵守協議,在植入觸發器的過程中使用 c_i 對惡意模型進行校正,攻擊效果可能會減弱。相反,如果攻擊者選擇不當篡改 c_i 并將惡意的 c 上傳至服務器,則可能導致全局模型被破壞。
- 后門災難性遺忘。 災難性遺忘是指神經網絡在學習新任務時忘記先前已學任務的現象。這會導致后門功能隨著時間推移而失效。如果攻擊者停止上傳惡意更新,后門功能最終可能會被良性更新「抹去」。
BadSFL 算法詳解
為克服上述挑戰,我們提出了 BadSFL,其詳細步驟見算法 2。BadSFL 主要包含以下 4 個步驟:
- 步驟 1:初始化。攻擊者首先從服務器下載全局模型
和控制變元 c,并啟動攻擊。隨后,攻擊者利用下載的全局模型
來更新本地模型
和判別器 D。 - 步驟 2:基于 GAN 的數據補充訓練。攻擊者在生成器 G 和判別器 D 上執行 GAN 訓練。當生成器收斂時,意味著其具備生成逼真偽樣本的能力,這些樣本屬于類別 C,但不來自
(攻擊者本地數據集),而是模擬來自其他客戶端的數據集。然后,生成器 G 被用于生成一定數量的類別 C 樣本,形成數據集
。該數據集
接著與攻擊者的原始數據集
合并,生成新的數據集
。 - 步驟 3:后門樣本選擇與觸發器注入。在數據集
上,攻擊者選擇帶有特定特征的樣本作為后門樣本,并將其重新標注為目標類別 x,該目標類別與原始標簽不同。攻擊者將這些經過篡改的樣本組織成單獨的數據集
,并將其與
合并,最終得到用于后門訓練的數據集
。 - 步驟 4:后門模型訓練與優化。攻擊者基于數據集
訓練本地模型
。在訓練過程中,攻擊者按照公式 (3) 優化后門目標。模型收斂后,得到后門模型更新
以及對應的控制變元
,并可將其上傳至服務器。
基于 GAN 的數據集補充
在非 IID 數據場景中,直接將后門樣本注入數據集
進行訓練往往會導致模型出現更大的偏差,顯著偏離全局最優解。
為緩解這一問題,攻擊者可以使用 GAN 生成與其他客戶端數據相似的合成樣本。其方法是通過在本地非 IID 數據上訓練生成器 G,以縮小數據集之間的差距。GAN 的架構主要由生成器 G 和判別器 D 組成。在本文場景中,生成器 G 由一系列「反卷積」層組成,它們逐步將隨機噪聲轉換為樣本;而判別器 D 的結構與全局模型高度相似,唯一區別在于輸出層用于區分假樣本和真實樣本。攻擊者在本地迭代訓練生成器 G,并以判別器 D 作為約束,直至其收斂并能夠生成逼真的偽樣本,這些樣本并不來自攻擊者的原始數據。
與此同時,隨著 SFL 過程的進行,全局模型逐漸收斂。在每一輪服務器 - 客戶端通信中,攻擊者都會利用從服務器下載的最新全局模型
更新判別器 D,并對生成器 G 進行新一輪優化訓練,以引導其生成更加真實、接近其他客戶端數據的偽樣本。最終,這些高質量的合成樣本會被整合進攻擊者原始的非 IID 數據集,從而有效地補充了額外的數據類別。

攻擊者在每一輪本地訓練中,會利用從服務器下載的最新全局模型
同步更新判別器 D,隨后執行 GAN 訓練以優化生成器 G 的性能。該過程的輸出結果會被合并到攻擊者的非 IID 數據集中,用于進一步的后門訓練。由于生成的樣本與其他客戶端數據集的樣本高度相似,攻擊者訓練得到的本地最優解能夠比其他客戶端的本地最優解更接近全局最優解。下圖 3 展示了在有與無數據補充技術的情況下,聚合后的全局最優解之間的差異。

觸發器選擇與注入
利用已準備好的數據集
(包含原始數據和合成數據),攻擊者繼續在模型中注入后門。BadSFL 使用以下三種技術來實現后門注入:
- 標簽翻轉(Label-flipping):將數據集
中某一類樣本 a 的真實標簽直接修改為另一標簽 b。例如,在 CIFAR-10 中,將所有「dog」標簽改為「cat」。 - 觸發器模式(Pattern trigger):在樣本中加入特定的觸發模式進行投毒,例如在圖像中添加一個小馬賽克方塊,以激活后門行為。攻擊者將這些帶觸發器的投毒圖像與目標標簽一同注入
,從而建立觸發模式與目標錯誤分類之間的關聯。 - 基于特征的隱蔽后門(Feature-based backdoor):這種方法更為隱蔽,它通過選擇某個類別中的獨特特征作為后門觸發器,而無需直接篡改圖像,從而增加檢測難度。例如,在 CIFAR-10 中,將「car」類中的所有綠色汽車設為后門觸發器。在推理階段,只有當輸入圖像中包含綠色汽車時,受損模型才會輸出攻擊者設定的目標標簽。由于這種觸發器是類內自然特征的變異,因此很難被檢測到。
使用控制變元來進行后門訓練
如前文所述,全局控制變元 c 在 SFL 中用于糾正客戶端漂移。具體來說,校正值
會將本地模型的參數調整到更接近全局模型的位置。在本地模型訓練過程中,這一校正項能夠有效地「拉動」發生漂移的本地模型,使其更接近全局模型,從而促進模型向全局最優解收斂。在服務器聚合階段,全局控制變元 c 是通過對所有本地模型的漂移值進行平均計算得到的,這一平均值代表了全局模型的收斂方向。
從攻擊者的角度來看,如果按照 SFL 規則讓控制變元去校正中毒模型,會降低后門攻擊的有效性。然而,攻擊者仍然需要提交一個控制變元
來報告后門模型的漂移情況。其關鍵思路是:訓練一個比其他基于非 IID 數據訓練的本地模型更接近全局模型的后門模型。由于全局控制變元 c 對參與的客戶端是已知的,它可以作為全局模型收斂方向的參考,幫助中毒模型更好地對齊全局最優解。這種基于 c 的約束類似于「利用未來的全局模型進行優化」的思路。該約束可以被集成到損失函數中,以增強后門在全局模型中的有效性和持久性。
最初,攻擊者執行后門訓練,并按如下 公式 (1) 優化其后門目標:

其中,L 表示后門任務的損失函數,
為攻擊者模型的權重。
在 BadSFL 攻擊中,我們對標準后門目標函數進行了修改,增加了一項約束,以確保攻擊者發送到服務器的后門更新能夠在后續更多輪訓練中持續保留在全局模型的后門功能中。我們可以模擬一次聚合輪,并應用控制變元 c 來預測未來一輪的全局模型。修改后的目標函數為公式 (2):

綜合起來,我們將攻擊目標形式化為以下公式 (3):

其中,j 表示
預期的未來訓練輪數。通過將后門模型優化得更接近全局模型,攻擊者同時優化控制變元
,使其與預期的漂移值對齊。這樣可以確保攻擊者的行為仍然符合 SFL 協議(算法 1)。
實驗結果
本文在 MNIST、CIFAR-10 以及 CIFAR-100 三個數據集上對 BadSFL 的有效性進行了實驗評估。實驗比較了 4 個其它的已知后門攻擊,包括Block-box Attack、Neurotoxin、Irreversible Backdoor Attach (IBA) 和 3DFed。下表 1 總結了細節的實驗設置。

從圖 6a 到圖 6f,我們展示了在 CIFAR-10 和 CIFAR-100 數據集上與基準方法的攻擊對比。可以明顯看出,BadSFL 在攻擊有效性和持久性方面都優于基準攻擊方法。

具體來說,在攻擊者仍參與訓練過程、執行后門訓練并向服務器上傳惡意更新的前 10 輪中,BadSFL 在所有類型的后門攻擊中都實現了超過 80% 的后門任務準確率。同時,BadSFL 保持主要任務的準確率在 60% 左右(見下圖 5b)。此外,即使攻擊者在第 40 輪退出訓練過程,后續輪次中的良性客戶端仍會繼續上傳正常更新,這可能會影響攻擊者在之前攻擊輪次中的中毒更新,從而逐漸抹去后門功能。

盡管如此,BadSFL 仍能保證后門功能的持久性,在整個 100 輪 SFL 訓練中后門任務準確率始終保持在 90% 以上,這比兩種基準攻擊的生命周期長 3 倍(基準攻擊的后門任務準確率在第 60 輪后降至 50% 以下)。橫向對比不同類型的后門觸發器注入效果(圖 6a、6b 和 6c),可以發現 基于特征的觸發器表現最佳,得益于其隱蔽性,它不直接篡改圖像,因此其更新與良性更新沖突的可能性較小。
圖 6g 和圖 6h 展示了在 MNIST 數據集上獲得的實驗結果。類似地,BadSFL 也優于其他基準攻擊方法,在后門任務準確率和主要任務準確率上均超過 85%。當惡意更新在第 40 輪停止注入后,在標簽翻轉攻擊中,兩種基準攻擊的后門任務準確率在 10 輪內災難性地下降到 40% 以下,而 BadSFL 在后續輪次中能在全局模型中保持 長達 5 倍更持久的后門功能。在觸發器模式攻擊中,BadSFL 也在全局模型中注入了更高效的后門功能,其準確率比基準方法高出 10%。
總結
本文提出了 BadSFL,這是一種專為使用 Scaffold 聚合算法的非 IID 聯邦學習環境設計的新型后門攻擊。通過采用基于 GAN 的數據增強技術并利用 Scaffold 的控制變元,BadSFL 在攻擊有效性、隱蔽性和持久性方面均優于現有方法。我們在多個基準數據集上的實驗結果表明,該攻擊具有顯著的有效性,且后門功能的持續時間遠超已有方法。未來,我們希望研究人員能夠設計出更穩健的防御機制,包括使用在去中心化環境中的可驗證訓練方法,以保護聯邦學習系統免受此類攻擊的威脅。

























