国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

比傳統方法強7倍:Anthropic物理隔離危險知識,重塑大模型安全訓練范式

人工智能 新聞
Anthropic研究團隊聯合帝國理工學院、愛丁堡大學及Constellation的研究人員,發布了一項名為選擇性梯度掩碼(Selective GradienT Masking,簡稱SGTM)的新技術。

Anthropic團隊提出選擇性梯度掩碼技術,通過在訓練階段將危險知識物理隔離到特定參數中并在隨后剔除,實現了比傳統數據過濾更優的安全性與通用能力平衡,其抗恢復性是現有方法的7倍。

Anthropic研究團隊聯合帝國理工學院、愛丁堡大學及Constellation的研究人員,發布了一項名為選擇性梯度掩碼(Selective GradienT Masking,簡稱SGTM)的新技術。

這項研究直面大語言模型在安全領域的核心難題,即如何在保留人類通用知識的同時,徹底剝離關于化學、生物、放射性及核(CBRN)武器等危險領域的雙重用途能力。

研究不僅揭示了傳統數據過濾方法的局限性,更通過一種近乎外科手術般的參數隔離手段,為構建安全的超級模型提供了全新的技術路徑。

數據過濾面臨不可能三角困境

構建安全模型的傳統思路非常直觀,業界普遍采用數據過濾法,即在預訓練階段就把有害數據清洗掉。

不想讓模型學會制造生化武器,就不給它看相關的教科書和論文,這種看似合理的邏輯在模型規模不斷擴大的當下遭遇了嚴峻的現實挑戰。

標注成本與準確性的矛盾難以調和,想要在數以十億計的文檔中精準識別出所有涉及CBRN的內容,成本高昂且極易出錯。

數據量的龐大意味著任何微小的誤判率都會導致海量的有害信息漏網或有益信息被誤刪,更棘手的是有害內容往往隱藏在良性文檔中。

一本普通的化學教科書,絕大部分篇幅都在講基礎化學原理,這些是模型理解科學世界所必需的通用知識,但其中可能夾雜著一兩章關于有毒化合物合成的內容,若直接剔除整本書,模型將失去寶貴的化學常識,若保留,危險知識便隨之潛入。

雙重用途知識的糾纏特性使得徹底分離成為一種奢望,許多科學概念本質上是中立的,既可用于研發救命藥物,也能用于制造致命毒素,離心機技術既是核能發電的關鍵,也是濃縮鈾的核心,這種知識的糾纏使得簡單的二元分類失效。

隨著模型采樣效率的提升,即便只有極少量的有害數據殘留,大模型依然能夠從中提取出危險能力,這導致了一種無法避免的權衡,要么接受模型包含危險知識的風險,要么通過過度激進的過濾犧牲模型的通用智能。

現有事后安全措施如拒絕回答訓練,雖然能阻止模型直接輸出有害信息,但往往無法抵御堅定的對抗性攻擊,攻擊者總能找到繞過防御的方法,誘導模型釋放其潛藏的危險能力。

SGTM不再試圖在輸入端完美區分數據,而是改變了模型存儲知識的方式。

梯度掩碼實現知識物理隔離

SGTM的核心理念源自梯度路由(Gradient Routing),即在模型訓練過程中,人為地將特定類型的知識引導至特定的模型參數中。

研究團隊將Transformer架構中的參數劃分為兩類,一類是負責存儲通用知識的保留參數,另一類是專門用于存儲危險知識的遺忘參數,這些參數具體分布在每一層Transformer塊的注意力頭(Attention Heads)和多層感知機(MLP)神經元中。

在訓練過程中,當模型遇到被標記為危險的數據(如CBRN相關內容)時,SGTM會啟動選擇性梯度掩碼機制,此時算法會強制將損失函數產生的梯度更新僅應用于那些被指定為遺忘參數的部分,而保留參數則被凍結或忽略,不受該數據的更新影響。

這相當于在模型的大腦中劃定了一個隔離區,所有危險知識在進入模型時,都被強制路由并存儲到了這個特定的區域,而通用知識則正常分布在保留參數中。

這種機制在訓練完成后展現出了強大的威力,由于危險知識被物理隔離在特定的參數子集中,去除這些能力變得異常簡單且徹底。

研究人員只需將這些遺忘參數的權重清零或重置,就能像切除腫瘤一樣,精準地移除危險能力,同時最大程度地保留存儲在其他參數中的通用能力。

這種方法從根本上區別于傳統的數據過濾,它允許模型閱讀包含危險信息的文檔,從而學習其中的通用語法、邏輯和背景知識,但將危險的核心要素隔離存儲以便后續切除。

自強化吸收效應解決標注難題

SGTM最令人驚嘆的特性在于其對未標記數據的處理能力,也就是所謂的吸收效應(Absorption)。

在實際應用中,我們不可能完美標記所有危險數據,總會有漏網之魚,SGTM利用了神經網絡的一種內在動力學特性,一旦模型開始根據已標記的樣本將危險知識定位到特定的遺忘參數中,一個自強化的過程便隨之產生。

這種自強化過程意味著,即使是未被標記的危險內容,在經過模型處理時,也會自然地傾向于激活并更新那些已經專門用于處理此類信息的遺忘參數。

研究團隊通過梯度范數分析證實了這一現象,在雙語TinyStories實驗中,研究者將英語作為保留數據,西班牙語作為遺忘數據。

初期僅對部分標記數據應用梯度掩碼,隨后在處理未標記數據時,研究者發現,西班牙語數據產生的梯度更新自然而然地集中在了遺忘參數上,而英語數據則主要更新保留參數。

這意味著模型內部建立起了專門處理特定領域知識的通路,就像水流自然會沿著已有的河道流動一樣,未標記的危險內容會被自動吸收到遺忘參數中。

這種特性賦予了SGTM極強的魯棒性,即使訓練數據存在大量標簽噪聲或遺漏,它依然能夠有效地將危險知識隔離。

這是傳統數據過濾方法完全無法具備的優勢,數據過濾一旦漏標,危險知識就會均勻擴散到整個模型中,而SGTM則能利用模型自身的泛化能力捕捉漏網之魚。

暴力微調驗證知識徹底清除

檢驗一種知識移除方法是否有效,最硬核的標準不是看模型在正常對話中是否拒絕回答,而是看它在遭受惡意攻擊試圖恢復記憶時能堅持多久。

目前流行的淺層遺忘學習方法(如RMU),往往只是壓抑了模型輸出危險知識的傾向,并未真正清除相關權重,一旦攻擊者對模型進行少量的對抗性微調,這些被壓抑的知識就會迅速反彈。

研究團隊對SGTM訓練出的模型進行了殘酷的對抗性微調測試,試圖通過輸入50/50混合的生物學與通用數據來恢復被移除的生物學知識。

結果顯示,傳統的遺忘學習方法不堪一擊,僅需50步微調(約1300萬token),模型原本被移除的生物學能力就完全恢復到了基線水平,這表明知識從未真正消失,只是被藏了起來。

相比之下,SGTM展現出了驚人的抗恢復性,攻擊者需要進行長達350步的微調(約9200萬token),才能將模型的生物學能力恢復到基線水平,這一難度是傳統方法的7倍。

這一數據與經過嚴格數據過濾訓練的模型表現相當,證明SGTM不僅僅是抑制了知識的表達,而是真正實現了知識的物理移除。

只有當攻擊者通過微調重新向模型灌輸大量新知識時,這種能力才會重新出現,這本質上已經是重新訓練而非記憶恢復了。

在與弱過濾(僅移除生物學文章)和強過濾(移除生物、醫學、化學、環境文章)的對比實驗中,SGTM展現出了更優越的保留與遺忘權衡。

在相同的通用能力保留水平下,SGTM能更徹底地清除生物學知識,而在相同的生物學知識清除水平下,SGTM能保留更多的醫學和化學等相鄰領域的知識。

它避免了強過濾帶來的焦土政策,即為了安全不得不犧牲大量相關領域的有益知識,同時也彌補了弱過濾在處理糾纏知識時的無力。

機制局限與未來防御圖景

盡管SGTM在2.54億參數規模的模型上取得了令人振奮的成果,但研究團隊保持了嚴謹的科學態度,坦誠指出了當前的局限性。

目前實驗尚未在更大規模的模型或混合專家(MoE)架構上進行驗證,而MoE正是當前萬億參數模型的主流架構,其稀疏激活的特性是否會影響梯度路由的效果,仍需進一步探索。

此外,評估主要依賴于損失指標,未來需要引入如WMDP等更直接衡量危險能力的下游基準測試。

必須清醒地認識到,SGTM主要解決的是模型參數知識的安全性。

它無法防御上下文攻擊(In-context Attacks),如果攻擊者在提示詞中直接提供了制造生化武器所需的全部詳細步驟和配方,即便模型本身不具備這些知識,它仍可能利用其強大的邏輯推理和文本處理能力,幫助攻擊者梳理和優化這些信息。

這就像一個不懂化學的聰明人,如果給他一本詳細的實驗指南,他依然可能按照指南完成實驗。

因此,SGTM不能單打獨斗,它必須與輸入過濾、輸出監控等防御措施結合,構成多層縱深防御體系。

SGTM為雙模型部署提供了一種極具吸引力的可能性。

由于該技術在訓練階段就已經實現了知識的物理分離,開發者可以僅通過一次訓練,就同時獲得兩個版本的模型:

  • 一個包含完整參數的未刪減版,供經過授權的安全人員或科研機構使用;
  • 另一個是經過參數切除的安全版,面向公眾開放,這種一次訓練、雙重產出的模式,在算力成本高昂的今天,具有極高的經濟價值和實用意義。

對于追求AGI安全的研究者而言,SGTM提供了一個重要的啟示。

與其試圖清洗那片浩瀚且混亂的互聯網數據海洋,不如重塑模型的大腦結構,讓危險知識在進入的那一刻起,就被關進了可以隨時丟棄的籠子里。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2023-06-09 07:29:03

模型文本document

2025-12-22 08:51:00

AI模型技術

2025-12-22 08:45:00

2024-10-21 17:17:48

2025-09-03 09:43:43

2023-05-26 10:15:34

模型訓練

2022-02-14 18:41:59

物理隔離內網安全網絡安全

2025-06-06 00:33:00

大模型AnthropicOpenAI

2025-04-01 15:35:11

2024-03-21 10:32:55

2023-09-03 12:56:43

2017-06-13 22:54:03

筆記本機械鍵盤鍵盤

2025-10-10 05:00:00

智能體LIMI大模型

2025-10-14 13:55:57

AI模型訓練

2025-08-14 09:02:00

2024-07-08 13:11:40

2025-01-10 10:30:00

大模型統計評估

2010-08-02 09:12:18

云計算安全模型

2024-12-19 09:48:59

2025-04-29 09:12:00

點贊
收藏

51CTO技術棧公眾號

久久93精品国产91久久综合| 欧美 亚欧 日韩视频在线 | 色一区二区三区四区| 亚洲性生活视频| 国产丝袜在线| 色综合天天做天天爱| 欧美aaa一级| 尤物视频一区二区| 色视频网站在线| 亚洲欧洲色图综合| 日本a级片免费| 中文字幕在线免费不卡| 天天综合天天操| 国产精品黄色在线观看| 色综合天天色综合| 久久亚洲精精品中文字幕早川悠里 | 热久久一区二区| 欧美二区在线| 最新亚洲一区| 精品高清视频| 麻豆成人精品| 日韩偷拍一区二区| 国精产品一区一区三区mba视频 | 欧美亚洲高清| 成人激情电影一区二区| 91精品秘密在线观看| 91精品在线国产| 亚洲国产高清视频| 亚洲免费在线精品一区| 一本到av在线| 亚洲精品视频免费观看| 日韩写真福利视频在线| 色天使色偷偷av一区二区| 成年人视频免费在线观看| 欧美精品日韩综合在线| 中文字幕中文字幕在线十八区 | 成人18免费| 亚洲一二三四区| 在线日本视频| 亚洲国产天堂久久国产91| 手机在线理论片| 久久久久久久亚洲精品| 99久精品视频在线观看视频| 国产一区二区高清不卡| 青青国产91久久久久久| 日韩欧美视频网站| 亚洲视频在线一区二区| 91青青在线视频| 一区二区三区日韩在线| 天堂在线精品| 国产一区二区三区高清视频| 国产一区二区三区四区五区入口| 婷婷丁香激情网| 欧美在线播放高清精品| 日本在线视频一区二区| 国产精品日日做人人爱| 日本vs亚洲vs韩国一区三区二区 | 蜜臀国产一区二区三区在线播放| 男人操女人逼免费视频| 亚洲一区二区三区四区五区中文| 毛片在线视频| 欧美成人午夜激情视频| 欧美www视频在线观看| 国产手机视频在线观看| 亚洲精品免费电影| 妞干网免费在线视频| 国产婷婷色一区二区三区四区| 蜜桃免费在线视频| 麻豆精品网站| 亚洲精品成人a8198a| 亚洲人体av| 色婷婷综合久久久久| 夜久久久久久| 久久久久这里只有精品| 国产一区清纯| 欧洲熟妇精品视频| 欧美日韩国产在线播放网站| 综合久久av| dy888夜精品国产专区| 成人av网站在线观看| 免费一级在线观看播放网址| 久久视频免费观看| 99视频在线精品国自产拍免费观看| 免费激情视频在线观看| 精品久久久久久久人人人人传媒 | 色成年激情久久综合| 主播大秀视频在线观看一区二区| 国产日本欧美一区二区三区在线| 处破女av一区二区| 超碰电影在线播放| 国产精品美女av| 国产色产综合色产在线视频| 五月天激情在线| 国产在线一区二区三区| 日韩欧美中文| 国产情侣一区| 综合激情丁香| 亚洲免费一在线| 国产字幕视频一区二区| 久草在线免费二| 日韩在线视频一区| 99热免费精品在线观看| 樱桃视频免费看| 九九热精品视频国产| 久草热8精品视频在线观看| 国产1区2区3区在线| 国产精品激情自拍| 国产精品久久久久久久久免费丝袜| 日韩高清中文字幕一区二区| 欧美一区二区三区电影在线观看| 一区二区三区影院| 欧美成人一区在线观看| 免费看国产曰批40分钟| 亚洲男人天堂视频| 久久er精品视频| 免费看电影在线| 日韩中文一区二区三区| 制服丝袜中文字幕一区| 欧美成人久久| 国产香蕉在线| 国产精品9999久久久久仙踪林| 亚洲在线观看免费视频| 久草成人在线| 国产污污在线观看| 国产精品午夜视频| 精品久久久久久久久久久久久久 | 免费高清在线一区| 成人网在线播放| 五月激激激综合网色播| 新欧美整片sss第一页| 美媛馆国产精品一区二区| 亚洲高清视频在线| 国产精品极品国产中出| 国产精华一区二区三区| 国产精品久久久久久久久图文区| 亚洲资源在线观看| 激情视频亚洲| 岳毛多又紧做起爽| 久久艳片www.17c.com | 国产真实乱偷精品视频免| 欧美人与禽性xxxxx杂性| 日韩尤物视频| 日韩电影第一页| 国产最新精品精品你懂的| 亚洲成人av观看| www.中文字幕在线| 欧美激情第99页| 自拍视频在线观看一区二区| 视频国产一区| 国产精品影院在线| 狠狠色噜噜狠狠色综合久 | 国内精品久久久久久野外| 久久久精品动漫| 日韩精品极品在线观看| 精品无人码麻豆乱码1区2区| 偷拍精品精品一区二区三区| 国产一区二区在线视频播放| 久久久久久久国产| 精品欧美国产一区二区三区| 亚洲欧美不卡| 精品亚洲a∨| 五月伊人六月| 欧美久久久久久| 综合激情国产一区| 一卡二卡三卡日韩欧美| 亚洲精品一级| 免费一区二区三区四区| 国产天堂av| 欧美在线激情| 欧美高清videos高潮hd| 一本到不卡精品视频在线观看| 免费成人在线视频观看| 亚洲精品一区二区三区中文字幕| 亚洲а∨精品天堂在线| 亚洲欧洲精品一区二区| 欧美精品aaa| 6080国产精品一区二区| 97aⅴ精品视频一二三区| 成人aaaa| 一个人www视频在线免费观看| 日韩免费高清在线| 好看的日韩精品| 欧美老少配视频| 欧美日韩精品三区| 91丨九色丨国产丨porny| 亚洲成人三区| 91精品亚洲一区在线观看| 成r视频免费观看在线播放| 亚洲国产成人不卡| 性视频1819p久久| 日韩亚洲欧美在线| 中文字幕一区二区三区在线不卡| 久久精品女人| 国产99精品一区| 亚洲精品中文字幕| 亚洲精品男人| 男女午夜激情视频| 欧美一区二区三区在线播放| 欧美中文字幕视频在线观看| 亚洲激情在线观看|