国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大型語言模型中的隱私注意事項

人工智能
經過訓練以預測句子中下一個單詞的基于機器學習的語言模型變得越來越強大、普遍和有用,從而導致問答、翻譯等應用程序的突破性改進。

 [[430922]]

經過訓練以預測句子中下一個單詞的基于機器學習的語言模型變得越來越強大、普遍和有用,從而導致問答、翻譯等應用程序的突破性改進。但隨著語言模型的不斷發展,新的和意想不到的風險可能會暴露出來,這就要求研究界積極努力開發新的方法來緩解潛在的問題。

其中一種風險是模型可能會從訓練數據中泄露細節。雖然這可能是所有大型語言模型都關心的問題,但如果要公開使用基于私有數據訓練的模型,則可能會出現其他問題。由于這些數據集可能很大(數百 GB)并且來自各種來源,因此它們有時可能包含敏感數據,包括個人身份信息 (PII)——姓名、電話號碼、地址等,即使是根據公共數據進行訓練的. 這增加了使用此類數據訓練的模型可以在其輸出中反映其中一些私人細節的可能性。因此,重要的是要識別并最大限度地降低此類泄漏的風險,并制定策略以解決未來模型的問題。

在與OpenAI、Apple、斯坦福大學、伯克利分校和東北大學合作的“從大型語言模型中提取訓練數據”中,我們證明,只要能夠查詢預訓練的語言模型,就可以提取特定的片段模型記憶的訓練數據。因此,訓練數據提取攻擊是對最先進的大型語言模型的現實威脅。這項研究代表了早期的關鍵步驟,旨在讓研究人員了解此類漏洞,以便他們可以采取措施減輕這些弱點。

語言模型攻擊的倫理

訓練數據提取攻擊在應用于公眾可用但訓練中使用的數據集不可用的模型時最有可能造成傷害。然而,由于在這樣的數據集上進行這項研究可能會產生有害的后果,我們改為對GPT-2進行概念驗證訓練數據提取攻擊,GPT-2是一種由 OpenAI 開發的大型公開可用語言模型,僅使用公共數據進行訓練。雖然這項工作特別關注 GPT-2,但結果適用于理解大型語言模型上可能存在的隱私威脅。

與其他與隱私和安全相關的研究一樣,在實際執行此類攻擊之前考慮此類攻擊的道德規范很重要。為了最大限度地降低這項工作的潛在風險,這項工作中的訓練數據提取攻擊是使用公開可用的數據開發的。此外,GPT-2 模型本身在 2019 年由 OpenAI 公開,用于訓練 GPT-2 的訓練數據是從公共互聯網收集的,任何遵循GPT中記錄的數據收集過程的人都可以下載-2 紙。

此外,根據負責任的計算機安全披露規范,我們會跟蹤提取了 PII 的個人,并在發布對這些數據的引用之前獲得了他們的許可。此外,在這項工作的所有出版物中,我們已經編輯了任何可能識別個人身份的個人識別信息。我們還在 GPT-2 的分析中與 OpenAI 密切合作。

訓練數據提取攻擊

根據設計,語言模型使得生成大量輸出數據變得非常容易。通過用隨機短語為模型播種,該模型可以生成數百萬個延續,即完成句子的可能短語。大多數情況下,這些延續將是合理文本的良性字符串。例如,當被要求預測字符串“ Mary had a little… ”的連續性時,語言模型將有很高的置信度認為下一個標記是“ lamb ”這個詞。但是,如果某個特定的訓練文檔碰巧多次重復字符串“ Mary had a little wombat ”,模型可能會改為預測該短語。

訓練數據提取攻擊的目標是篩選來自語言模型的數百萬個輸出序列,并預測記住哪些文本。為了實現這一點,我們的方法利用了這樣一個事實,即模型往往對直接從訓練數據中捕獲的結果更有信心。這些成員推理攻擊使我們能夠通過檢查模型對特定序列的置信度來預測結果是否用于訓練數據。

這項工作的主要技術貢獻是開發了一種高精度推斷成員資格的方法,以及以鼓勵輸出記憶內容的方式從模型中采樣的技術。我們測試了許多不同的采樣策略,其中最成功的一種生成以各種輸入短語為條件的文本。然后我們比較兩種不同語言模型的輸出。當一個模型對序列有很高的置信度,而另一個(同樣準確的)模型對序列的置信度較低時,很可能第一個模型已經記住了數據。

結果

在 GPT-2 語言模型的 1800 個候選序列中,我們從公共訓練數據中提取了 600 多個記憶,總數受限于需要手動驗證。記住的示例涵蓋了廣泛的內容,包括新聞標題、日志消息、JavaScript 代碼、PII 等。盡管這些示例在訓練數據集中很少出現,但它們中的許多示例都被記住了。例如,對于我們提取的許多 PII 樣本,僅在數據集中的單個文檔中找到。但是,在大多數情況下,原始文檔包含 PII 的多個實例,因此模型仍將其作為高似然文本進行學習。

最后,我們還發現語言模型越大,它就越容易記住訓練數據。例如,在一項實驗中,我們發現 15 億個參數的 GPT-2 XL 模型比 1.24 億個參數的 GPT-2 Small 模型記憶的信息多 10 倍。鑒于研究界已經訓練了 10 到 100 倍大的模型,這意味著隨著時間的推移,需要做更多的工作來監控和緩解越來越大的語言模型中的這個問題。

經驗教訓

雖然我們專門演示了對 GPT-2 的這些攻擊,但它們顯示了所有大型生成語言模型中的潛在缺陷。這些攻擊是可能的,這一事實對使用這些類型模型的機器學習研究的未來產生了重要影響。

幸運的是,有幾種方法可以緩解這個問題。最直接的解決方案是確保模型不會在任何可能有問題的數據上進行訓練。但這在實踐中很難做到。

差分隱私 的使用允許對數據集進行訓練,而無需透露單個訓練示例的任何細節,是訓練具有隱私的機器學習模型的最有原則的技術之一。在 TensorFlow 中,這可以通過使用tensorflow/privacy 模塊(或類似的 PyTorch 或 JAX)來實現,該模塊是現有優化器的直接替代品。即使這樣也會有限制,并且不會阻止對重復次數足夠多的內容的記憶。如果這是不可能的,我們建議至少測量發生了多少記憶,以便采取適當的行動。

語言模型繼續展示出巨大的實用性和靈活性——然而,與所有創新一樣,它們也可能帶來風險。負責任地發展它們意味著主動識別這些風險并開發減輕它們的方法。我們希望這項突出大語言建模當前弱點的努力將提高更廣泛的機器學習社區對這一挑戰的認識,并激勵研究人員繼續開發有效的技術來訓練模型,減少記憶。

 

責任編輯:張燕妮 來源: 雨夜的博客
相關推薦

2011-05-26 11:22:04

SEO

2011-03-31 13:58:34

cactinagios

2010-01-14 18:19:40

C++語言

2014-05-16 10:04:19

JavaScriptthis原理

2010-01-27 09:12:01

C++語言學習

2010-01-18 16:12:16

CC++語言

2009-12-15 17:47:17

VSIP

2014-01-09 09:10:32

公有云云安全

2021-11-16 10:35:59

云計算云計算環境云應用

2010-11-26 16:27:01

MySQL使用變量

2011-09-26 11:02:10

2020-10-20 14:05:48

用戶需求分析IT

2023-01-14 09:49:11

2009-07-22 17:47:21

Java語言常見字符串

2010-02-05 14:13:17

Android平臺

2014-07-01 12:49:06

Android Stu安裝

2009-12-21 09:53:45

連接Oracle

2010-07-29 10:27:30

Flex鍵盤事件

2009-12-16 15:41:10

Ruby on Rai

2011-04-11 16:23:57

點贊
收藏

51CTO技術棧公眾號

欧美日韩在线免费视频| 欧美成aaa人片在线观看蜜臀| 欧洲精品视频在线| 亚洲美女啪啪| 国产精品一区二区久久久久| 一区二区三区四区精品视频 | 国产美女精品在线观看| 蜜臀av免费一区二区三区| 在线视频一区二区| 擼擼色在线看观看免费| 日韩一级成人av| 巨骚激情综合| 欧美又粗又大又爽| 成人免费高清在线播放| 欧美日韩一区二区免费视频| x88av蜜桃臀一区二区| 亚洲视频1区2区| 成人黄色激情网站| 国产精品国产三级国产aⅴ入口 | 欧美二区视频| 91精品国产综合久久香蕉的用户体验 | 久久精品国产色蜜蜜麻豆| 日本一区二区三区视频在线播放| 激情一区二区| 国产乱码精品一区二区三区不卡| 午夜精品999| 久久久综合亚洲91久久98| 日韩一区二区久久| 日韩免费av一区二区三区| 老司机精品视频在线| 中文字幕日韩精品久久| 国产乱一区二区| 免费看欧美黑人毛片| 99在线精品视频| 992kp快乐看片永久免费网址| 中文字幕在线一区免费| av福利导福航大全在线播放| 亚洲国产成人高清精品| 日本免费一区二区三区最新| 欧美主播一区二区三区| 色综合999| 久久精品电影网| 九九热播视频在线精品6| 国产精品人人做人人爽| 1024日韩| 91传媒免费视频| 国产蜜臀97一区二区三区| 日韩加勒比系列| 欧美日韩久久久一区| 综合日韩av| 欧美日韩国产成人在线观看| 黑人操亚洲人| 日本欧美色综合网站免费| 成人综合在线网站| 好男人社区在线视频| 欧美日韩一级二级三级| 欧美freesex| 国产高清在线不卡| 噜噜噜在线观看免费视频日韩| 日韩精品在线观看av| 亚洲美腿欧美偷拍| 手机在线免费av| 2019中文字幕在线免费观看| 亚洲精品国产日韩| 成人免费观看在线| 亚洲成人av在线电影| 欧美人与禽性xxxxx杂性| 久久久国产成人精品| 日韩欧美午夜| 激情图片qvod| 欧美日韩国产页| 日本一道高清亚洲日美韩| 国产精品第一第二| 狠狠色狠狠色合久久伊人| а√最新版天堂中文在线| 欧美精品18+| 欧美日韩一区二区三区四区不卡 | 大片网站久久| 8x8x华人在线| 粉嫩老牛aⅴ一区二区三区| 厕沟全景美女厕沟精品| 国产美女久久久| 成人综合在线观看| 888av在线| 欧美亚洲午夜视频在线观看| 麻豆精品精品国产自在97香蕉| 久久国产情侣| 亚洲一区二区福利| 夜夜嗨av一区二区三区网站四季av| 1024av视频| 欧美mv日韩mv国产网站app| 最新精品国偷自产在线| 亚洲在线播放电影| 欧美性xxxx在线播放| 成人污版视频| 亚洲国产激情一区二区三区| 亚洲国产精品一区二区www在线| 精品肉辣文txt下载| 精品日韩电影| 黑人巨大精品欧美一区二区一视频 | 国产黑丝在线一区二区三区| 日夜干在线视频| 欧美成人免费小视频| 免费在线观看不卡| 97最新国自产拍视频在线完整在线看| 欧美亚洲成人网| 久久这里只有精品首页| 91视频欧美| 精品欧美一区二区在线观看视频 | 日韩视频在线观看| 免费男同深夜夜行网站| 亚洲欧美日本精品| 美日韩精品视频| 都市激情在线视频| 国产精自产拍久久久久久蜜| 欧美国产禁国产网站cc| 亚洲高清影院| 激情六月天婷婷| 亚洲国产成人91精品| 国产日韩精品视频一区二区三区 | 中文字幕乱码免费| 精品日韩在线观看| 亚洲免费网址| 麻豆网站在线看| 国产欧美日韩亚洲| 欧美性生交片4| 婷婷综合久久| 一级视频在线观看视频在线啦啦| 91av视频在线播放| 欧美经典一区二区| 国产精品18hdxxxⅹ在线| 久久综合久久色| 久久理论片午夜琪琪电影网| 久久亚洲综合色| 亚洲一区 二区| 先锋影音成人资源| 国产精品久久久久久久久久久久| 亚洲精品少妇30p| 成人久久久久| 精品影院一区| 久久亚洲高清| 亚洲风情亚aⅴ在线发布| 美女网站在线免费欧美精品| 高清毛片在线观看| 在线观看17c| 久久精品免费电影| 综合中文字幕亚洲| 久久久久久久久久久久久久| 可以在线观看的av| 色婷婷精品国产一区二区三区| 亚洲国产毛片完整版| 粉嫩一区二区三区在线看| 不卡精品视频| 啊啊啊射了视频网站| 国产精品自拍小视频| 色美美综合视频| 亚洲尤物影院| 毛片免费看不卡网站| 亚洲自偷自拍熟女另类| 久久久久久久一区二区| 亚洲一卡二卡三卡四卡无卡久久| 91精品啪在线观看国产81旧版| 午夜不卡视频| 国产真实老熟女无套内射| 国模精品系列视频| 色视频成人在线观看免| 日韩av一级电影| 日本精品网站| 久久午夜剧场| 欧美日韩精品综合| www国产亚洲精品久久网站| 亚洲影院理伦片| 亚洲一区欧美激情| aa亚洲一区一区三区| 麻豆影视在线观看| 三区精品视频观看| 亚洲91精品在线| 欧美日韩一区二区三区四区| 国产一区不卡精品| 免费精品国产| 久久不射影院| 污视频网站免费| 久久av免费一区| 久久福利视频网| 欧美精品一二三区| 91免费观看国产| 在线观看视频免费一区二区三区| 深夜视频一区二区| 清纯唯美亚洲色图| 乱熟女高潮一区二区在线| 国产黑人绿帽在线第一区| 精品福利在线导航| 亚洲色图在线播放| 日本女人一区二区三区| 女同久久另类99精品国产| av网站在线看| 一级毛片免费视频| 亚洲熟妇无码一区二区三区| 99re在线视频观看| 久久久久久网址|