国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Anthropic公布新技術:不靠刪數據,參數隔離移除AI危險

人工智能 新聞
當模型在海量公開互聯網數據中學習時,它不僅掌握語言與推理能力,也不可避免地接觸到 CBRN(化學、生物、放射、核)危險制造、軟件漏洞利用等高敏感度、潛在危險的知識領域。

近年來,大語言模型的能力突飛猛進,但隨之而來的卻是愈發棘手的雙重用途風險(dual-use risks)。當模型在海量公開互聯網數據中學習時,它不僅掌握語言與推理能力,也不可避免地接觸到 CBRN(化學、生物、放射、核)危險制造、軟件漏洞利用等高敏感度、潛在危險的知識領域。

為此,研究者通常會在后訓練加入拒答機制等安全措施,希望阻斷這些能力的濫用。然而事實證明:面對刻意規避的攻擊者,這些防線并不牢固。模型的強大讓它在被保護與被繞過之間處于微妙而脆弱的平衡。

這促使研究者開始探索在預訓練階段進行干預,從根源上防止模型獲得危險能力。

目前的標準做法是數據過濾:在訓練前識別并移除有害內容。然而,這一方法存在多項挑戰:

  • 標注成本高且不完美:要在數十億文檔中準確識別所有 CBRN 相關內容,既昂貴又容易出錯。
  • 有害內容常混雜在良性文檔中:例如一本化學教材大部分是有益的教育內容,但其中也可能包含可被濫用的知識。
  • 雙重用途知識高度糾纏:許多概念本身具有益處與風險并存的特性,無法做到完全干凈的分離。
  • 模型的樣本效率提升:最新研究表明,隨著模型規模擴大,即使極少量的危險數據也可能顯著提升模型在相關危險任務上的能力。

這些挑戰導致一個不可避免的取舍:要么接受危險內容,要么因為過度清洗而損失大量有價值的通用知識。

為此,Anthropic 提出了 SGTM(Selective Gradient Masking),用一種全然不同的范式來應對這些挑戰:它不再試圖在訓練前完美分類并剔除危險數據,而是在訓練過程中將危險知識定位進模型中專門的參數區域。

  • 論文地址:https://arxiv.org/pdf/2512.05648
  • 代碼地址:https://github.com/safety-research/selective-gradient-masking
  • 論文標題:BEYOND DATA FILTERING: KNOWLEDGE LOCALIZATION FOR CAPABILITY REMOVAL IN LLMS

其核心洞察在于:一旦模型開始根據帶標簽的示例將危險知識存儲到指定參數中,一個自我強化的過程就會出現,即使是未標注的危險內容,也會自然地聚集到同一組參數里。

這種吸附效應(absorption effect)的結果是:即便存在標注錯誤或漏標,危險知識仍會落入可移除的參數部分,從而實現傳統數據過濾無法達到的對標注噪聲的魯棒性。

在訓練結束后,只需將這部分指定參數置零,即可移除危險知識,同時保留模型的通用能力完好無損。

SGTM 在訓練過程中將目標知識(如 CBRN 信息)聚焦到模型的特定參數中,訓練完成后只需移除這些參數即可消除危險能力,同時保留模型的通用知識。

方法介紹

SGTM 基于 Gradient Routing(梯度路由)框架:它在訓練過程中將危險知識集中到特定的模型參數中,隨后可以通過移除這些參數來刪除相關能力。

SGTM 的核心做法是:通過選擇性掩碼梯度來調整訓練期間梯度的作用方式,從而控制不同類型的知識被存儲到哪些參數中。

SGTM 將模型參數劃分為忘卻(forget,橙色)和保留(retain,藍色)兩部分。在每個 Transformer block 中,部分注意力頭和 MLP 神經元被指定用于存儲危險知識,其余部分則用于存儲通用知識。

SGTM 的工作機制如下:

參數指定:在每個 Transformer block 中,將特定的注意力頭和 MLP 神經元指定為忘卻參數,負責存儲危險知識;其余參數則作為保留參數,用于存儲通用知識。

選擇性梯度掩碼:在訓練過程中,當模型看到被標注為危險的數據(如 CBRN 相關內容)時,會掩碼非忘卻參數的梯度,使得只有忘卻參數被更新。這樣可以確保危險知識只能流入預設的參數區域。

消融:在訓練結束后,永久性地將忘卻參數置零,從而移除危險知識,同時保留模型的整體能力。

這種方法的關鍵在于 SGTM 對未標注數據(即不確定其是否危險)采取允許其更新所有參數的方式。但由于模型在帶標注數據中已學習到危險知識應當被存儲的位置,這會產生一個自我強化過程(absorption 吸附效應),未標注的危險內容也會自然地傾向聚集到忘卻參數中。

從基于維基百科訓練的模型中隔離并移除生物學知識

為了驗證 SGTM 的有效性,Anthropic 在英文維基百科上訓練了一個 2.54 億參數的模型,目標是在移除生物學知識的同時保留其他能力。他們使用維基百科的內容分類體系為文章打標簽,將其中的生物學類文章(占所有 token 的 3.7%)視為需要遺忘的數據,以便在模型中移除。

SGTM 在保持通用能力的前提下,實現了比數據過濾更好的知識移除效果。圖中每條曲線代表一次訓練過程。

Anthropic 將 SGTM 與兩種數據過濾基線方法進行了對比。弱過濾:僅移除生物學類文章;強過濾:移除生物學 + 醫學 + 化學 + 環境類文章。

結果表明:對于任意固定的 retain loss(通用能力保留程度),SGTM 都能獲得更高的 forget loss(生物學知識移除強度),即在保留 — 遺忘權衡上明顯優于兩種過濾方案。

這種優勢源于文章級標注的局限性:非生物學類文章中仍可能含有大量嵌入式生物學內容。數據過濾必須對整篇文章作二元判斷,要么保留、要么移除;但 SGTM 能夠從任何來源中將生物學知識局部化到 forget 參數中。

因此,SGTM 能夠:

  • 捕獲弱過濾中漏掉的生物學信息
  • 避免強過濾中對鄰近學科(如醫學、化學)的誤傷

相比強過濾,SGTM 保留了更多與生物學相鄰領域的知識;相比弱過濾,SGTM 又能移除更多生物學知識。此外,SGTM 的計算成本略有提升:在達到與標準訓練相同 retain loss 的前提下,SGTM 會增加約 5% 的計算開銷。

SGTM 對對抗式微調具有魯棒性

對于任何知識移除技術,一個關鍵問題是:知識是否真的被移除,而非僅僅被壓制?

為此,Anthropic 進行了測試:通過對模型進行對抗式微調,嘗試用 50/50 混合比例的生物學數據與通用數據重新灌輸生物學知識,觀察其是否能夠恢復。

SGTM 的知識移除在對抗式微調下表現出極強的魯棒性。相比之下,標準的后訓練遺忘方法(RMU)會很快恢復被移除的知識,而 SGTM 需要 7 倍以上的微調量才能回到基線性能,其抗恢復能力與完美數據過濾訓練的模型相當。

實驗結果顯示:

  • 傳統的后訓練遺忘方法(RMU)抗壓性極弱:僅需 50 個微調步驟(1300 萬 tokens),模型就完全恢復了原本的生物學能力;
  • SGTM 則需要 350 個步驟(9200 萬 tokens) 才能恢復到基線性能,抗恢復能力是 RMU 的 7 倍;
  • SGTM 的魯棒性與嚴格的數據過濾方法相當,這表明它實現的是真正的知識移除,而非表層抑制。

機制層面的理解

為了理解 SGTM 的工作原理,本文使用雙語 TinyStories 數據(將英語視為保留知識、將西班牙語視為遺忘知識)進行了受控實驗,從而研究 SGTM 如何實現知識的局部化。他們在處理未標注數據時分析了其梯度范數,即將所有樣本視為標簽未知、且不應用任何梯度掩碼,以觀察不同類型的數據自然會更新哪些參數。

對未標注數據的梯度范數分析揭示了一個自我強化的知識局部化機制。當模型處理遺忘數據(如西班牙語)時,遺忘參數呈現更高的梯度范數;相反,當模型處理保留數據(如英語)時,保留參數的梯度范數更高。

這種吸附(absorption)機制解釋了 SGTM 面對標簽噪聲仍具魯棒性的原因,即使是未標注的危險內容,也會自然流向被設計用于移除的參數中。

分析顯示,SGTM 的自強化機制包含以下過程:

  • 初始階段:帶標簽的遺忘樣本由于梯度掩碼,只會更新遺忘參數。
  • 路徑形成:模型因此在內部為遺忘領域內容建立了專門的處理路徑。
  • 自然而然的路由傾向:隨后,即便是未標注的遺忘樣本,也會自然通過這些路徑,主要更新遺忘參數。
  • 吸附效應:這意味著即使危險內容被錯誤標注或遺漏,它也會被吸附到可移除的參數中。

Anthropic 還發現,這種局部化效應會隨模型規模增大而增強。在 8M 到 64M 參數規模的模型中,大模型在遺忘知識向保留參數泄漏方面表現出更低的程度,這表明 SGTM 在更大模型上效果更佳。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-28 09:15:00

AI人才開發者

2022-11-21 14:33:53

大數據數據存儲機器學習

2025-07-22 09:07:04

2020-04-22 10:27:39

人工智能技術安全

2025-05-30 01:30:00

Anthropic技巧AI

2020-04-22 10:52:44

AI人工智能算法

2025-03-24 11:04:01

2013-12-30 09:48:53

數據中心網絡Service Fun

2023-12-20 13:58:50

數據庫PilotScope阿里云

2025-03-26 03:01:00

2025-06-05 02:00:00

AIKafkaFlink

2024-02-26 10:25:17

谷歌人工智能AI

2020-03-19 14:53:45

人工智能

2013-09-18 13:57:00

大數據時代

2015-10-30 09:39:57

2025-12-04 00:12:00

2021-04-16 20:50:16

URL爬蟲參數

2014-02-14 09:22:00

數據中心網絡業務隔離

2011-08-18 12:15:37

黑客

2025-08-15 09:23:41

點贊
收藏

51CTO技術棧公眾號

日韩有码欧美| 亚洲欧美日韩视频二区| 欧美一区二区三区人| 精品剧情v国产在线观看| 久久老女人爱爱| 国产高清av在线播放| 秋霞电影网一区二区| 久久久久久国产精品mv| 亚洲无毛电影| 国产伦精品一区二区三区高清版| 亚洲三级网页| 欧美激情亚洲一区| 韩国一区二区三区视频| 丝袜一区二区三区| 国产伊人久久| 欧美成人合集magnet| 国产亚洲高清在线观看| 超碰日本道色综合久久综合| 超碰国产精品一区二页| 九九热这里只有在线精品视 | 国产喂奶挤奶一区二区三区| 久久免费一级片| 韩国毛片一区二区三区| 97av中文字幕| 成人性生交大合| 国产精品69页| 国产精品久久久久久久久快鸭| 大香一本蕉伊线亚洲网| 亚洲综合色成人| 啊v视频在线| 精品国产免费久久| 欧美性片在线观看| 欧美激情中文网| 精品无码一区二区三区在线| 日本亚洲免费观看| 无码人妻aⅴ一区二区三区日本| 成人综合婷婷国产精品久久蜜臀| aaa毛片在线观看| 一区二区三区免费| 猫咪在线永久网站| 亚洲精品一区二区三区蜜桃下载| 久久夜夜久久| 日本一区二区三区在线播放| 好看不卡的中文字幕| 欧美主播一区二区三区美女 久久精品人 | 成人香蕉社区| 成人免费看黄网站| 日韩经典中文字幕一区| www.欧美黄色| 亚洲精品综合在线| 欧美成人视屏| 在线视频日韩精品| 国产丝袜一区| 久久久福利视频| 成人动漫av在线| 白白色在线发布| 精品国内二区三区| jizz久久精品永久免费| 精品一区二区国产| 91免费看片在线观看| 黄色成人av| 亚洲精品suv精品一区二区| 精品视频高潮| 日韩欧美亚洲日产国产| 亚洲欧洲日韩av| free性护士videos欧美| 国产91免费看片| 国产在线精品一区在线观看麻豆| 国产网站免费观看| 欧美精品一区二区在线观看| 人妖一区二区三区| 亚洲国产精品毛片| 亚洲综合丁香婷婷六月香| 国产日韩电影| 国产v亚洲v天堂无码| 久久综合狠狠综合| 久久综合之合合综合久久| 久久久久久91| 久久精品国产亚洲一区二区三区| 少妇激情av一区二区三区| 亚洲久久久久久久久久久| 久久久久久久久久久久久久| 青青视频在线播放| 日韩欧美一二三| 91亚洲一区| 北条麻妃视频在线| 精品久久一区二区三区| 99国产精品一区二区| 黄色网页免费在线观看| 日韩一区二区三区高清免费看看| 精品一区毛片| 少妇高清精品毛片在线视频| 精品国产露脸精彩对白| 亚洲综合色网| 3d黄动漫网站| 久久久精品国产| 捆绑调教美女网站视频一区| 中文在线a√在线8| 日产精品久久久一区二区福利| 99久久99九九99九九九| 456亚洲影院| 亚洲a在线视频| 久久国产精品一区二区三区| 不卡视频一区| 国内精品免费**视频| 久久综合九色综合久| 欧美性生交xxxxx久久久| 欧美永久精品| 中文在线a在线| 亚欧精品在线| 日韩一级免费一区| 国产成人啪免费观看软件| 欧美极品免费| 国产99精品一区| 99精品人妻少妇一区二区| www.日韩免费| 91精品国产色综合久久不卡98| 91午夜在线播放| 精品国产免费一区二区三区香蕉| 日韩电影一区二区三区| 亚欧美无遮挡hd高清在线视频| 欧美在线se| 亚洲黄色av网址| 98精品在线视频| 亚洲视频一区二区| 国产伦理精品不卡| 欧美91大片| 日色在线视频| 蜜臀视频一区二区三区| 欧美欧美一区二区| 青青在线免费视频| 大伊香蕉精品视频在线| 国产高清不卡av| 国产综合在线视频| 久久婷婷国产麻豆91天堂| 国产不卡一区视频| 天堂一区二区在线免费观看| 日本va欧美va精品| 免费的成人av| 国产精品全国免费观看高清| 国产三级欧美三级日产三级99| 亚洲国产精品久久久久蝴蝶传媒| 国产精品扒开腿做爽爽爽视频软件| 成人动漫在线播放| 人操人视频在线观看| 亚洲精品美女久久7777777| 狠狠久久综合婷婷不卡| 国产裸体写真av一区二区 | 日本欧美一区二区| 欧美一区二区三区婷婷| 青青操综合网| 欧洲精品久久久久毛片完整版| 国产精品videossex国产高清| 亚洲欧洲一区二区三区久久| 国产高清视频在线| 国产一区视频免费观看| 超碰在线电影| 有码中文亚洲精品| 91在线视频观看| 久久wwww| 久草在线国产| 97久久人人超碰caoprom欧美| 亚洲成人av| 美女扒开腿让男人桶爽久久动漫| 天天干夜夜干| 91亚洲精品一区| 欧美精品在线免费观看| 久久综合久久久久88| 动漫视频在线一区| 中国黄色在线视频| 欧美二区三区| 中文在线资源观看视频网站免费不卡| 久久久久国产精品麻豆ai换脸| av综合网页| 99热手机在线观看| 中文字幕不卡| 黄色大片在线免费观看| 99福利在线观看| 3d动漫一区二区三区| 九色porny自拍| 色国产在线视频| 色总=综合色| 人人澡人人爽| cao在线观看| 狠狠色噜噜狠狠色综合久| 国产成人精品免高潮费视频| 欧美亚洲另类视频| 亚洲免费av网址| 欧美日韩国产另类不卡| 亚洲欧洲精品一区二区三区| 国产精品成人a在线观看| 蜜桃视频成人m3u8| 国产精品对白久久久久粗| 激情亚洲综合网| 精品人伦一区二区三区| 日韩中文字幕免费看| 欧美性生活大片视频| 国产无人区一区二区三区| 性xx色xx综合久久久xx| 色天下一区二区三区|