国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務信息,模型學會「自毀」了

人工智能 新聞
斯坦福研究人員提出要用任務阻斷技術訓練大模型,使模型在正常任務中表現(xiàn)良好的同時,阻礙模型適應有害任務。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

防止大模型作惡的新法子來了!

這下即使模型開源了,想惡意使用模型的人也很難讓大模型“作惡”。

不信就來看這項研究。

斯坦福研究人員最近提出了一種新方法對大模型使用附加機制進行訓練后,可以阻止它對有害任務的適應。

他們把通過此方法訓練出的模型稱為“自毀模型”

圖片

自毀模型仍然能夠高性能地處理有任務,但在面對有害任務的時候會神奇地“變差”。

目前該論文已被AAAI接收,并獲得了最佳學生論文獎榮譽提名。

先模擬,再毀掉

越來越多大模型開源,讓更多人可以參與到模型的研發(fā)和優(yōu)化中,開發(fā)模型對社會有益的用途。

然而,模型開源也同樣意味著惡意使用大模型的成本也降低了,為此不得不防一些別有用心之人(攻擊者)。

此前為防止有人惡意促使大模型作惡,主要用到了結構安全機制技術安全機制兩類辦法。結構安全機制主要是使用許可證或訪問限制,但面對模型開源,這種方法效果被削弱。

這就需要更多的技術策略做補充。而現(xiàn)有的安全過濾、對齊優(yōu)化等方法又容易被微調(diào)或者提示工程繞過。

斯坦福研究人員提出要用任務阻斷技術訓練大模型,使模型在正常任務中表現(xiàn)良好的同時,阻礙模型適應有害任務。

圖片

任務阻斷的方法就是假設攻擊者試圖將預訓練大模型改造用于有害任務,然后搜索最佳的模型改造方法。

接著通過增加數(shù)據(jù)成本和計算成本兩種方式來增加改造難度。

研究人員在這項研究中著重探究了增加數(shù)據(jù)成本的方法,也就是降低模型的少樣本效果,使模型在有害任務上的少樣本表現(xiàn)接近隨機初始化模型,這也就意味著要惡意改造就要花費更多數(shù)據(jù)。以至于攻擊者寧愿從頭開始訓模型,也不愿使用預訓練模型。

具體來說,為了阻止預訓練模型成功適應有害任務,研究人員提出了一種利用了元學習(Meta-Learned)和對抗學習的MLAC(Meta-Learned Adversarial Censoring)算法來訓練自毀模型

MLAC使用有益任務數(shù)據(jù)集和有害任務數(shù)據(jù)集對模型進行元訓練(meta-training):

圖片

△MLAC訓練程序

該算法在內(nèi)循環(huán)中模擬各種可能的適配攻擊,在外循環(huán)中更新模型參數(shù)以最大化有害任務上的損失函數(shù),也就是更新參數(shù)抵抗這些攻擊。

通過這種對抗的內(nèi)外循環(huán),使模型“遺忘”掉有害任務相關的信息,實現(xiàn)自毀效果。

繼而學習到在有益任務上表現(xiàn)良好,而在有害任務上難以適配的參數(shù)初始化。

圖片

△meta-learning過程

整體上,MLAC通過模擬攻擊者(adversary)適配過程,找到有害任務的局部優(yōu)點或鞍點,在有益任務上保持全局最優(yōu)。

正如上圖,通過規(guī)劃預訓練模型在參數(shù)空間中的位置,可以增加其微調(diào)的難度。

放置在點1的大模型可以通過梯度下降輕松調(diào)整,以獲得有害任務損失(haemful task loss)和期望任務損失(desired task loss)的全局最優(yōu)解。

另一方面,放置在點2的大模型可以輕松達到期望任務的最優(yōu)解,但更有可能陷入有害任務的局部最優(yōu)解。

這樣得到的模型初始化,在有益任務上易于適配到全局最優(yōu),但在有害任務上陷入局部優(yōu)點,難以改造。

自毀效果針不戳!

為了測試通過上述方法訓練出的“自毀模型”的性能,研究人員做了個實驗。

首先研究人員準備了一個人物傳記數(shù)據(jù)集——Bias in Bios。

然后他們將性別識別任務視為有害任務,職業(yè)分類任務視為有益任務。在原始數(shù)據(jù)集基礎上,把所有人稱替換為“they/their”,增加了性別識別任務的難度。

在未處理的數(shù)據(jù)集上,隨機模型只需要10個例子就可以達到90%以上的性別分類準確率。

然后將模型進行50k steps的MLAC預訓練。

在測試時,研究人員用生成的自毀模型,通過嚴格的超參數(shù)搜索運行它,以最大限度地提高有害任務的微調(diào)性能

此外,研究人員還抽出了驗證集子集作為攻擊者訓練集,模擬攻擊者僅有有限數(shù)據(jù)的情況。

但在超參數(shù)搜索時,允許攻擊者使用完整的驗證集。這意味著雖然攻擊者只有有限訓練數(shù)據(jù),但可以在全量數(shù)據(jù)上探索超參數(shù)

如果在這種情況下,MLAC訓練的模型仍難以適配到有害任務,可以更好地證明其自毀效果。

研究人員隨即將MLAC與以下方法進行比較:

  • 隨機初始化模型
  • 僅在有益任務上微調(diào)的BERT
  • 簡單對抗訓練法

△經(jīng)過微調(diào)的有害任務(性別識別)表現(xiàn)。陰影表示在6個隨機seed上的95%置信區(qū)間。

結果發(fā)現(xiàn),MLAC方法訓練出的自毀模型在所有數(shù)據(jù)量下的有害任務性能均接近隨機初始化模型。而簡單對抗訓練法并沒有明顯降低有害任務的微調(diào)性能。

與簡單對抗訓練相比,MLAC的元學習機制對產(chǎn)生自毀效果至關重要。

圖片

△MLAC算法中內(nèi)循環(huán)步數(shù)K的影響,K=0相當于簡單的對抗訓練

此外,MLAC模型在有益任務上的少樣本性能優(yōu)于BERT微調(diào)模型:

圖片

△在對所需任務進行微調(diào)后,MLAC自毀模型的少樣本性能超過了BERT和隨機初始化模型。

論文鏈接:https://arxiv.org/abs/2211.14946

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-01-29 12:49:00

AI模型

2023-07-04 10:11:28

數(shù)據(jù)模型

2025-07-28 08:45:00

2023-10-20 12:17:57

AI數(shù)據(jù)

2022-07-14 15:08:23

AI模型

2023-12-08 13:22:00

數(shù)據(jù)模型

2023-07-28 12:13:28

模型語言性能

2022-07-04 15:09:55

超大數(shù)據(jù)集數(shù)據(jù)分析瘦身

2023-12-25 09:23:07

模型技術

2023-02-14 09:45:11

模型測試

2024-04-24 09:47:36

2023-09-25 10:04:37

模型AI

2023-03-14 13:45:14

模型AI

2023-05-15 09:43:49

模型數(shù)據(jù)

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-05-04 12:32:28

模型研究

2023-11-03 07:47:12

機器資源大模型:

2025-06-06 09:15:00

2025-03-03 09:16:00

Meta模型預測

2025-12-12 08:59:00

點贊
收藏

51CTO技術棧公眾號

久久精品青青大伊人av| 亚洲国产国产亚洲一二三| 欧美高清日韩| 欧美色网站导航| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 日韩成人高清| 亚洲成人免费电影| 一区二区三区在线视频看| 亚洲电影二区| 亚洲国产日韩在线一区模特| 国产精品久久久久久久久免费| 国产对白在线| 麻豆成人免费电影| 日韩高清不卡av| 91高清视频免费| 91视频免费版污| 国产一区在线观看视频| 国产精品日韩电影| 国产精品一区二区av交换| 亚洲国产精品久久久久爰色欲| 波多野结衣在线aⅴ中文字幕不卡| 成 年 人 黄 色 大 片大 全| 久久―日本道色综合久久| 香蕉视频网站入口| 色婷婷激情综合| 色天使综合视频| 日韩精品在线私人| 日韩电影不卡一区| 欧美人与物videos| 巨大黑人极品videos精品| 国产精品久久久久久亚洲毛片 | 国产精品一区二区三区在线播放| 136福利第一导航国产在线| 亚洲成人综合网站| 一级日韩一区在线观看| 极品尤物一区| 欧美刺激性大交免费视频| 你懂的在线免费观看| 国产一区二区三区中文| 男人和女人做事情在线视频网站免费观看| 亚洲黄页网站| 中文亚洲视频在线| 欧美变态挠脚心| 国产精品综合网站| 2020中文字幕在线播放| 2023国产精华国产精品| 97视频热人人精品| 国产精品久久久久久久久晋中| 三级在线播放| 久久中文精品视频| 久久爱www久久做| 成人三级av| 亚洲一区二区久久| 91久久午夜| 成人午夜免费在线视频| 国产综合久久久久影院| 国内成+人亚洲| 久久美女性网| 久久人人97超碰人人澡爱香蕉| 亚洲一区二区免费看| 一区二区三区精品国产| 久久精品国产99久久6| 久久精品国产精品亚洲精品色| 91浏览器在线视频| 五月婷婷激情久久| 成人av电影免费在线播放| 国产美女性感在线观看懂色av| 成人午夜电影久久影院| 91免费黄视频| 国产一区二区三区欧美| 国产成人高清| 青青视频在线播放| 日韩欧美中文字幕在线观看| 18+激情视频在线| 成人国产精品久久久| 国产综合色视频| 国产精品秘入口| 国产精品视频白浆免费视频| 国产欧美日韩另类一区| 黄色的视频在线观看| 91午夜在线播放| 亚洲444eee在线观看| 国产一区二区三区四区老人| 日韩视频在线视频| 亚洲丝袜在线视频| 久久精品网址| 黄色电影免费在线看| 7777精品伊久久久大香线蕉语言| 亚洲综合在线五月| 在线视频观看国产| 亚洲xxxx18| 日韩免费视频线观看| 奇米影视7777精品一区二区| 日本在线视频网址| 丝袜美腿玉足3d专区一区| 日韩激情视频在线| 欧美aaaa视频| 传媒av在线| 国产精品久久久久久久久免费| av一区二区久久| 精品欧美一区二区三区在线观看| 99视频在线视频| 一区二区三区国产在线观看| 美美哒免费高清在线观看视频一区二区 | 97久久国产精品| 成人黄色国产精品网站大全在线免费观看 | 91精品国产综合久久精品麻豆| 免播放器亚洲| 精品人人人人| 欧美vide| 日本成人在线不卡| 久久青草福利网站| 国产一区二区在线电影| 欧美激情第二页| julia中文字幕一区二区99在线| 国产黄色免费在线观看| 日韩美女爱爱视频| 午夜精品一区二区三区视频免费看| 精品女同一区二区三区在线播放| 麻豆成人在线观看| 国产欧美一区二区三区米奇| 六九午夜精品视频| 国产女主播在线观看| 日韩一区二区三区资源| 久久久久久国产三级电影| 精品国产乱码久久久久久影片| 成人一级视频在线观看| 亚洲国产99| jizz亚洲女人高潮大叫| av福利导福航大全在线播放| 一区二区不卡视频| 精品国产乱码久久久久久久软件| 亚洲aa中文字幕| 精品五月天久久| 精品视频中文字幕| 亚洲精品日韩欧美| 丝袜亚洲另类丝袜在线| 日韩av中文| 青青一区二区| 成人免费av电影| 日韩精品视频在线看| 国产精品久久久久久久久久三级| 粉嫩av一区二区三区| 丝袜诱惑亚洲看片| 成人a免费在线看| 欧美性做爰猛烈叫床潮| 伊人伊成久久人综合网站| 色婷婷久久综合| 亚洲一区二区黄| 欧美成人午夜影院| 国内精品视频在线播放| 诱人的瑜伽老师3hd中字| 欧美24videosex性欧美| 亚洲色图美国十次| 麻豆理论在线观看| 国产精品久久久久一区二区三区厕所| 国产日韩欧美一区| 亚洲国产岛国毛片在线| 欧美影院午夜播放| 欧美日韩在线三级| 情事1991在线| 久青草视频在线播放| 日韩在线观看中文字幕| 国产999精品久久| 一区二区成人在线视频| 91麻豆精品一区二区三区| 日本激情综合网| 中文字幕一精品亚洲无线一区 | 亚洲综合丁香婷婷六月香| 亚洲九九在线| caopeng在线| 免费看黄在线看| 国产精品高潮呻吟久久av野狼 | 五月伊人六月| 久久精品一区二区三区不卡免费视频| 亚洲欧美国产日韩天堂区| 亚洲一区成人在线| 鲁大师影院一区二区三区| 精品视频在线观看网站| 成人免费黄色网页| 免费看国产曰批40分钟| 99久久精品免费看国产一区二区三区| 亚洲男人7777| 日韩欧美视频一区二区三区| 国产ts人妖一区二区| 91tv官网精品成人亚洲| 成人毛片高清视频观看| 原千岁中文字幕| 人妖欧美1区| 欧美日韩导航| 综合久久久久久| 欧美无砖砖区免费| 久久777国产线看观看精品| 小明精品国产一区二区三区| 久久影院100000精品| 欧美日本韩国一区二区三区视频 | 中文字幕中文字幕一区二区| 亚洲久久一区二区| 国产精品欧美大片| 欧美精品videosex|