比傳統方法強7倍:Anthropic物理隔離危險知識,重塑大模型安全訓練范式
Anthropic團隊提出選擇性梯度掩碼技術,通過在訓練階段將危險知識物理隔離到特定參數中并在隨后剔除,實現了比傳統數據過濾更優的安全性與通用能力平衡,其抗恢復性是現有方法的7倍。

Anthropic研究團隊聯合帝國理工學院、愛丁堡大學及Constellation的研究人員,發布了一項名為選擇性梯度掩碼(Selective GradienT Masking,簡稱SGTM)的新技術。
這項研究直面大語言模型在安全領域的核心難題,即如何在保留人類通用知識的同時,徹底剝離關于化學、生物、放射性及核(CBRN)武器等危險領域的雙重用途能力。
研究不僅揭示了傳統數據過濾方法的局限性,更通過一種近乎外科手術般的參數隔離手段,為構建安全的超級模型提供了全新的技術路徑。
數據過濾面臨不可能三角困境
構建安全模型的傳統思路非常直觀,業界普遍采用數據過濾法,即在預訓練階段就把有害數據清洗掉。
不想讓模型學會制造生化武器,就不給它看相關的教科書和論文,這種看似合理的邏輯在模型規模不斷擴大的當下遭遇了嚴峻的現實挑戰。
標注成本與準確性的矛盾難以調和,想要在數以十億計的文檔中精準識別出所有涉及CBRN的內容,成本高昂且極易出錯。
數據量的龐大意味著任何微小的誤判率都會導致海量的有害信息漏網或有益信息被誤刪,更棘手的是有害內容往往隱藏在良性文檔中。
一本普通的化學教科書,絕大部分篇幅都在講基礎化學原理,這些是模型理解科學世界所必需的通用知識,但其中可能夾雜著一兩章關于有毒化合物合成的內容,若直接剔除整本書,模型將失去寶貴的化學常識,若保留,危險知識便隨之潛入。
雙重用途知識的糾纏特性使得徹底分離成為一種奢望,許多科學概念本質上是中立的,既可用于研發救命藥物,也能用于制造致命毒素,離心機技術既是核能發電的關鍵,也是濃縮鈾的核心,這種知識的糾纏使得簡單的二元分類失效。
隨著模型采樣效率的提升,即便只有極少量的有害數據殘留,大模型依然能夠從中提取出危險能力,這導致了一種無法避免的權衡,要么接受模型包含危險知識的風險,要么通過過度激進的過濾犧牲模型的通用智能。
現有事后安全措施如拒絕回答訓練,雖然能阻止模型直接輸出有害信息,但往往無法抵御堅定的對抗性攻擊,攻擊者總能找到繞過防御的方法,誘導模型釋放其潛藏的危險能力。
SGTM不再試圖在輸入端完美區分數據,而是改變了模型存儲知識的方式。
梯度掩碼實現知識物理隔離
SGTM的核心理念源自梯度路由(Gradient Routing),即在模型訓練過程中,人為地將特定類型的知識引導至特定的模型參數中。
研究團隊將Transformer架構中的參數劃分為兩類,一類是負責存儲通用知識的保留參數,另一類是專門用于存儲危險知識的遺忘參數,這些參數具體分布在每一層Transformer塊的注意力頭(Attention Heads)和多層感知機(MLP)神經元中。

在訓練過程中,當模型遇到被標記為危險的數據(如CBRN相關內容)時,SGTM會啟動選擇性梯度掩碼機制,此時算法會強制將損失函數產生的梯度更新僅應用于那些被指定為遺忘參數的部分,而保留參數則被凍結或忽略,不受該數據的更新影響。
這相當于在模型的大腦中劃定了一個隔離區,所有危險知識在進入模型時,都被強制路由并存儲到了這個特定的區域,而通用知識則正常分布在保留參數中。
這種機制在訓練完成后展現出了強大的威力,由于危險知識被物理隔離在特定的參數子集中,去除這些能力變得異常簡單且徹底。
研究人員只需將這些遺忘參數的權重清零或重置,就能像切除腫瘤一樣,精準地移除危險能力,同時最大程度地保留存儲在其他參數中的通用能力。

這種方法從根本上區別于傳統的數據過濾,它允許模型閱讀包含危險信息的文檔,從而學習其中的通用語法、邏輯和背景知識,但將危險的核心要素隔離存儲以便后續切除。
自強化吸收效應解決標注難題
SGTM最令人驚嘆的特性在于其對未標記數據的處理能力,也就是所謂的吸收效應(Absorption)。
在實際應用中,我們不可能完美標記所有危險數據,總會有漏網之魚,SGTM利用了神經網絡的一種內在動力學特性,一旦模型開始根據已標記的樣本將危險知識定位到特定的遺忘參數中,一個自強化的過程便隨之產生。
這種自強化過程意味著,即使是未被標記的危險內容,在經過模型處理時,也會自然地傾向于激活并更新那些已經專門用于處理此類信息的遺忘參數。
研究團隊通過梯度范數分析證實了這一現象,在雙語TinyStories實驗中,研究者將英語作為保留數據,西班牙語作為遺忘數據。

初期僅對部分標記數據應用梯度掩碼,隨后在處理未標記數據時,研究者發現,西班牙語數據產生的梯度更新自然而然地集中在了遺忘參數上,而英語數據則主要更新保留參數。
這意味著模型內部建立起了專門處理特定領域知識的通路,就像水流自然會沿著已有的河道流動一樣,未標記的危險內容會被自動吸收到遺忘參數中。
這種特性賦予了SGTM極強的魯棒性,即使訓練數據存在大量標簽噪聲或遺漏,它依然能夠有效地將危險知識隔離。
這是傳統數據過濾方法完全無法具備的優勢,數據過濾一旦漏標,危險知識就會均勻擴散到整個模型中,而SGTM則能利用模型自身的泛化能力捕捉漏網之魚。
暴力微調驗證知識徹底清除
檢驗一種知識移除方法是否有效,最硬核的標準不是看模型在正常對話中是否拒絕回答,而是看它在遭受惡意攻擊試圖恢復記憶時能堅持多久。
目前流行的淺層遺忘學習方法(如RMU),往往只是壓抑了模型輸出危險知識的傾向,并未真正清除相關權重,一旦攻擊者對模型進行少量的對抗性微調,這些被壓抑的知識就會迅速反彈。
研究團隊對SGTM訓練出的模型進行了殘酷的對抗性微調測試,試圖通過輸入50/50混合的生物學與通用數據來恢復被移除的生物學知識。

結果顯示,傳統的遺忘學習方法不堪一擊,僅需50步微調(約1300萬token),模型原本被移除的生物學能力就完全恢復到了基線水平,這表明知識從未真正消失,只是被藏了起來。
相比之下,SGTM展現出了驚人的抗恢復性,攻擊者需要進行長達350步的微調(約9200萬token),才能將模型的生物學能力恢復到基線水平,這一難度是傳統方法的7倍。
這一數據與經過嚴格數據過濾訓練的模型表現相當,證明SGTM不僅僅是抑制了知識的表達,而是真正實現了知識的物理移除。
只有當攻擊者通過微調重新向模型灌輸大量新知識時,這種能力才會重新出現,這本質上已經是重新訓練而非記憶恢復了。
在與弱過濾(僅移除生物學文章)和強過濾(移除生物、醫學、化學、環境文章)的對比實驗中,SGTM展現出了更優越的保留與遺忘權衡。

在相同的通用能力保留水平下,SGTM能更徹底地清除生物學知識,而在相同的生物學知識清除水平下,SGTM能保留更多的醫學和化學等相鄰領域的知識。
它避免了強過濾帶來的焦土政策,即為了安全不得不犧牲大量相關領域的有益知識,同時也彌補了弱過濾在處理糾纏知識時的無力。
機制局限與未來防御圖景
盡管SGTM在2.54億參數規模的模型上取得了令人振奮的成果,但研究團隊保持了嚴謹的科學態度,坦誠指出了當前的局限性。
目前實驗尚未在更大規模的模型或混合專家(MoE)架構上進行驗證,而MoE正是當前萬億參數模型的主流架構,其稀疏激活的特性是否會影響梯度路由的效果,仍需進一步探索。
此外,評估主要依賴于損失指標,未來需要引入如WMDP等更直接衡量危險能力的下游基準測試。
必須清醒地認識到,SGTM主要解決的是模型參數知識的安全性。
它無法防御上下文攻擊(In-context Attacks),如果攻擊者在提示詞中直接提供了制造生化武器所需的全部詳細步驟和配方,即便模型本身不具備這些知識,它仍可能利用其強大的邏輯推理和文本處理能力,幫助攻擊者梳理和優化這些信息。
這就像一個不懂化學的聰明人,如果給他一本詳細的實驗指南,他依然可能按照指南完成實驗。
因此,SGTM不能單打獨斗,它必須與輸入過濾、輸出監控等防御措施結合,構成多層縱深防御體系。
SGTM為雙模型部署提供了一種極具吸引力的可能性。
由于該技術在訓練階段就已經實現了知識的物理分離,開發者可以僅通過一次訓練,就同時獲得兩個版本的模型:
- 一個包含完整參數的未刪減版,供經過授權的安全人員或科研機構使用;
- 另一個是經過參數切除的安全版,面向公眾開放,這種一次訓練、雙重產出的模式,在算力成本高昂的今天,具有極高的經濟價值和實用意義。
對于追求AGI安全的研究者而言,SGTM提供了一個重要的啟示。
與其試圖清洗那片浩瀚且混亂的互聯網數據海洋,不如重塑模型的大腦結構,讓危險知識在進入的那一刻起,就被關進了可以隨時丟棄的籠子里。




































