Anthropic公布新技術:不靠刪數據,參數隔離移除AI危險
近年來,大語言模型的能力突飛猛進,但隨之而來的卻是愈發棘手的雙重用途風險(dual-use risks)。當模型在海量公開互聯網數據中學習時,它不僅掌握語言與推理能力,也不可避免地接觸到 CBRN(化學、生物、放射、核)危險制造、軟件漏洞利用等高敏感度、潛在危險的知識領域。
為此,研究者通常會在后訓練加入拒答機制等安全措施,希望阻斷這些能力的濫用。然而事實證明:面對刻意規避的攻擊者,這些防線并不牢固。模型的強大讓它在被保護與被繞過之間處于微妙而脆弱的平衡。
這促使研究者開始探索在預訓練階段進行干預,從根源上防止模型獲得危險能力。
目前的標準做法是數據過濾:在訓練前識別并移除有害內容。然而,這一方法存在多項挑戰:
- 標注成本高且不完美:要在數十億文檔中準確識別所有 CBRN 相關內容,既昂貴又容易出錯。
- 有害內容常混雜在良性文檔中:例如一本化學教材大部分是有益的教育內容,但其中也可能包含可被濫用的知識。
- 雙重用途知識高度糾纏:許多概念本身具有益處與風險并存的特性,無法做到完全干凈的分離。
- 模型的樣本效率提升:最新研究表明,隨著模型規模擴大,即使極少量的危險數據也可能顯著提升模型在相關危險任務上的能力。
這些挑戰導致一個不可避免的取舍:要么接受危險內容,要么因為過度清洗而損失大量有價值的通用知識。
為此,Anthropic 提出了 SGTM(Selective Gradient Masking),用一種全然不同的范式來應對這些挑戰:它不再試圖在訓練前完美分類并剔除危險數據,而是在訓練過程中將危險知識定位進模型中專門的參數區域。

- 論文地址:https://arxiv.org/pdf/2512.05648
- 代碼地址:https://github.com/safety-research/selective-gradient-masking
- 論文標題:BEYOND DATA FILTERING: KNOWLEDGE LOCALIZATION FOR CAPABILITY REMOVAL IN LLMS
其核心洞察在于:一旦模型開始根據帶標簽的示例將危險知識存儲到指定參數中,一個自我強化的過程就會出現,即使是未標注的危險內容,也會自然地聚集到同一組參數里。
這種吸附效應(absorption effect)的結果是:即便存在標注錯誤或漏標,危險知識仍會落入可移除的參數部分,從而實現傳統數據過濾無法達到的對標注噪聲的魯棒性。
在訓練結束后,只需將這部分指定參數置零,即可移除危險知識,同時保留模型的通用能力完好無損。

SGTM 在訓練過程中將目標知識(如 CBRN 信息)聚焦到模型的特定參數中,訓練完成后只需移除這些參數即可消除危險能力,同時保留模型的通用知識。
方法介紹
SGTM 基于 Gradient Routing(梯度路由)框架:它在訓練過程中將危險知識集中到特定的模型參數中,隨后可以通過移除這些參數來刪除相關能力。
SGTM 的核心做法是:通過選擇性掩碼梯度來調整訓練期間梯度的作用方式,從而控制不同類型的知識被存儲到哪些參數中。

SGTM 將模型參數劃分為忘卻(forget,橙色)和保留(retain,藍色)兩部分。在每個 Transformer block 中,部分注意力頭和 MLP 神經元被指定用于存儲危險知識,其余部分則用于存儲通用知識。
SGTM 的工作機制如下:
參數指定:在每個 Transformer block 中,將特定的注意力頭和 MLP 神經元指定為忘卻參數,負責存儲危險知識;其余參數則作為保留參數,用于存儲通用知識。
選擇性梯度掩碼:在訓練過程中,當模型看到被標注為危險的數據(如 CBRN 相關內容)時,會掩碼非忘卻參數的梯度,使得只有忘卻參數被更新。這樣可以確保危險知識只能流入預設的參數區域。
消融:在訓練結束后,永久性地將忘卻參數置零,從而移除危險知識,同時保留模型的整體能力。
這種方法的關鍵在于 SGTM 對未標注數據(即不確定其是否危險)采取允許其更新所有參數的方式。但由于模型在帶標注數據中已學習到危險知識應當被存儲的位置,這會產生一個自我強化過程(absorption 吸附效應),未標注的危險內容也會自然地傾向聚集到忘卻參數中。
從基于維基百科訓練的模型中隔離并移除生物學知識
為了驗證 SGTM 的有效性,Anthropic 在英文維基百科上訓練了一個 2.54 億參數的模型,目標是在移除生物學知識的同時保留其他能力。他們使用維基百科的內容分類體系為文章打標簽,將其中的生物學類文章(占所有 token 的 3.7%)視為需要遺忘的數據,以便在模型中移除。

SGTM 在保持通用能力的前提下,實現了比數據過濾更好的知識移除效果。圖中每條曲線代表一次訓練過程。
Anthropic 將 SGTM 與兩種數據過濾基線方法進行了對比。弱過濾:僅移除生物學類文章;強過濾:移除生物學 + 醫學 + 化學 + 環境類文章。
結果表明:對于任意固定的 retain loss(通用能力保留程度),SGTM 都能獲得更高的 forget loss(生物學知識移除強度),即在保留 — 遺忘權衡上明顯優于兩種過濾方案。
這種優勢源于文章級標注的局限性:非生物學類文章中仍可能含有大量嵌入式生物學內容。數據過濾必須對整篇文章作二元判斷,要么保留、要么移除;但 SGTM 能夠從任何來源中將生物學知識局部化到 forget 參數中。
因此,SGTM 能夠:
- 捕獲弱過濾中漏掉的生物學信息
- 避免強過濾中對鄰近學科(如醫學、化學)的誤傷
相比強過濾,SGTM 保留了更多與生物學相鄰領域的知識;相比弱過濾,SGTM 又能移除更多生物學知識。此外,SGTM 的計算成本略有提升:在達到與標準訓練相同 retain loss 的前提下,SGTM 會增加約 5% 的計算開銷。
SGTM 對對抗式微調具有魯棒性
對于任何知識移除技術,一個關鍵問題是:知識是否真的被移除,而非僅僅被壓制?
為此,Anthropic 進行了測試:通過對模型進行對抗式微調,嘗試用 50/50 混合比例的生物學數據與通用數據重新灌輸生物學知識,觀察其是否能夠恢復。

SGTM 的知識移除在對抗式微調下表現出極強的魯棒性。相比之下,標準的后訓練遺忘方法(RMU)會很快恢復被移除的知識,而 SGTM 需要 7 倍以上的微調量才能回到基線性能,其抗恢復能力與完美數據過濾訓練的模型相當。
實驗結果顯示:
- 傳統的后訓練遺忘方法(RMU)抗壓性極弱:僅需 50 個微調步驟(1300 萬 tokens),模型就完全恢復了原本的生物學能力;
- SGTM 則需要 350 個步驟(9200 萬 tokens) 才能恢復到基線性能,抗恢復能力是 RMU 的 7 倍;
- SGTM 的魯棒性與嚴格的數據過濾方法相當,這表明它實現的是真正的知識移除,而非表層抑制。
機制層面的理解
為了理解 SGTM 的工作原理,本文使用雙語 TinyStories 數據(將英語視為保留知識、將西班牙語視為遺忘知識)進行了受控實驗,從而研究 SGTM 如何實現知識的局部化。他們在處理未標注數據時分析了其梯度范數,即將所有樣本視為標簽未知、且不應用任何梯度掩碼,以觀察不同類型的數據自然會更新哪些參數。

對未標注數據的梯度范數分析揭示了一個自我強化的知識局部化機制。當模型處理遺忘數據(如西班牙語)時,遺忘參數呈現更高的梯度范數;相反,當模型處理保留數據(如英語)時,保留參數的梯度范數更高。
這種吸附(absorption)機制解釋了 SGTM 面對標簽噪聲仍具魯棒性的原因,即使是未標注的危險內容,也會自然流向被設計用于移除的參數中。
分析顯示,SGTM 的自強化機制包含以下過程:
- 初始階段:帶標簽的遺忘樣本由于梯度掩碼,只會更新遺忘參數。
- 路徑形成:模型因此在內部為遺忘領域內容建立了專門的處理路徑。
- 自然而然的路由傾向:隨后,即便是未標注的遺忘樣本,也會自然通過這些路徑,主要更新遺忘參數。
- 吸附效應:這意味著即使危險內容被錯誤標注或遺漏,它也會被吸附到可移除的參數中。
Anthropic 還發現,這種局部化效應會隨模型規模增大而增強。在 8M 到 64M 參數規模的模型中,大模型在遺忘知識向保留參數泄漏方面表現出更低的程度,這表明 SGTM 在更大模型上效果更佳。





























