国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

USENIX Sec'25 | LLM提示詞注入攻擊如何防?UC伯克利、Meta最新研究來了

人工智能 安全
LLM 強大的語言能力,使其被廣泛部署于 LLM 應用系統(LLM-integrated applications)中。此時,LLM 需要訪問外部數據(如文件,網頁,API 返回值)來完成任務。

本文介紹對 LLM 提示詞注入攻擊(prompt injection)的通用防御框架。首篇論文已被安全頂會 USENIX Security 2025 接收,第一作者陳思哲是 UC Berkeley 計算機系博士生,Meta FAIR 訪問研究員,研究興趣為真實場景下的 AI 安全。他的導師是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。

一作主頁:https://sizhe-chen.github.io

圖片

項目報告 slides:https://drive.google.com/file/d/1baUbgFMILhPWBeGrm67XXy_H-jO7raRa/view?usp=sharing

  • 論文地址:https://arxiv.org/pdf/2402.06363
  • 項目主頁:https://sizhe-chen.github.io/StruQ-Website
  • 代碼倉庫:https://github.com/Sizhe-Chen/StruQ

  • 論文地址:https://arxiv.org/pdf/2410.05451
  • 項目主頁:https://sizhe-chen.github.io/SecAlign-Website
  • 代碼倉庫:https://github.com/facebookresearch/SecAlign

提示詞注入攻擊:背景

LLM 強大的語言能力,使其被廣泛部署于 LLM 應用系統(LLM-integrated applications)中。此時,LLM 需要訪問外部數據(如文件,網頁,API 返回值)來完成任務。在這個交互場景下,有以下三方:

  • 指令(可信的):來自 LLM 應用系統開發者
  • 模型(可信的):來自開發者或 API 供應方
  • 數據(不可信的):來自外部或第三方

系統對外部數據源的訪問,提供了全新的攻擊視角:攻擊者可以在第三方數據中,注入額外的指令,以覆蓋 LLM 應用的原指令。如下圖所示,餐廳 A 的老板在點評網站 yelp 上,發布一條含有提示詞注入攻擊的評論,誤導 LLM 忽視其原指令(推薦一些好餐廳),轉而推薦風評不佳的餐廳 A。

提示詞注入攻擊,被 OWASP 安全社區列為對 LLM 應用系統的最大威脅 [1],對更廣泛的 LLM 應用造成重大安全阻礙。部署的工業級 LLM 應用系統(Google Docs [2], Slack AI [3], ChatGPT [4]),經測試可以被提示詞注入攻擊攻破,造成私有內容的泄露。

提示詞注入攻擊:原因

第一個原因:LLM 輸入中,沒有分離指令和數據,二者被直接拼接為單個 LLM 輸入。

對此,我們提出一個安全前端(secure front-end),在組織 LLM 輸入時,顯式分離指令和數據。

第二個原因:LLM 訓練中,模型被教導遵循輸入中的任意指令。

對此,我們提出結構化指令微調(structured instruction tuning)和安全對齊(secure alignment),訓練 LLM 識別安全前端組織的輸入,從中生成高質量的輸出,并對提示詞注入攻擊魯棒。

防御策略 1:安全前端

在 LLM 輸入上,我們設計只能被系統使用的分隔符(delimiters),分離指令和數據。安全前端會留出一些 LLM special tokens(如下圖中的 [MARK], [INST], ...),用于指令 / 數據分離,并刪除數據部分可能含有的特殊分隔符,使其僅能被 LLM 應用系統(而非數據提供方 / 攻擊者)所使用。

防御策略 2:結構化指令微調

在 LLM 訓練時,我們模擬提示詞注入攻擊,教導模型忽視任何在數據中的注入指令,僅遵循 LLM 應用系統的原指令(由安全前端分離并定義)。具體來說,我們從原指令微調數據集,生成一個新的 “結構化指令微調數據集”,其部分包含帶提示詞注入攻擊的樣本,如下圖所示。在此數據集上,我們利用標準 SFT(supervised fine-tuning)算法微調模型。

防御策略 3:安全對齊

在 LLM 訓練時,除了指令微調,還有對齊這一步驟,我們同樣可以在此做防御。安全對齊構建一個偏好數據集(preference dataset),對于每一個 SFT 數據集中的樣本:

  • 采樣另一個隨機樣本 s',用于模擬提示詞注入攻擊
  • 偏好數據集中,LLM 輸入是被注入了 s' 指令的樣本 s
  • 偏好數據集中,LLM 理想輸出是對 s 指令的回復
  • 偏好數據集中,LLM 不良輸出是對 s' 指令的回復

在此數據集上,我們利用標準偏好優化(direct preference optimization)算法微調模型。

提示詞注入攻擊:防御結果

防御策略 1+2 被稱為 StruQ (USENIX Sec'25),防御策略 1+3 被稱為 SecAlign。

如下圖所示,StruQ/SecAlign 模型保持和未防御模型相同的性能(general-purpose utility by AlpacaEval2 WinRate)。

對于無優化的提示詞注入攻擊,StruQ 模型實現了 < 2% 攻擊成功率,SecAlign 實現 0% 攻擊成功率(Max ASR Opt.-Free)。

對于基于優化的提示詞注入攻擊,StruQ 顯著降低其成功率,SecAlign 又進一步將成功率降低 4 倍以上,到 15% 以下(Max ASR Opt.-Based)。

提示詞注入攻擊:防御總結

我們提出提示詞注入攻擊成功的兩個原因,并逐一對它們設計防御。

由于 LLM 輸入中,沒有分離指令和數據,我們提出安全前端(secure front-end),在組織 LLM 輸入時,用只能被系統所用的分隔符,分離指令和數據。

由于 LLM 訓練中,模型被教導遵循輸入中的任意指令,我們提出結構化指令微調(structured instruction tuning)和安全對齊(secure alignment),訓練模型只遵循 LLM 應用系統設計的指令。

以下是三個防御策略,在模型訓練 pipeline 中的位置。

[1] https://owasp.org/www-project-top-10-for-large-language-model-applications。

[2] https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration。

[3] https://promptarmor.substack.com/p/data-exfiltration-from-slack-ai-via。

[4] https://thehackernews.com/2024/09/chatgpt-macos-flaw-couldve-enabled-long.html。

責任編輯:姜華 來源: 機器之心
相關推薦

2024-11-26 13:40:00

2024-02-05 13:28:14

AI音頻虛擬人像

2025-01-24 15:30:00

2025-04-30 09:09:00

2025-06-25 16:09:40

機器人AI訓練

2022-01-27 09:47:12

計算機MIT

2022-03-28 13:25:42

AI扶貧機器之心

2025-06-03 08:38:00

2023-11-14 07:47:42

IGN擴散模型

2023-05-16 13:32:23

模型排行

2025-01-22 15:21:00

2025-07-30 09:01:21

2024-03-25 08:30:00

AI數據

2023-04-04 13:17:00

GPUCMU開源

2025-04-18 08:42:52

模型推理AI

2023-04-07 09:28:31

模型訓練

2025-05-06 15:31:55

智能模型AI

2025-10-11 15:55:08

AI模型數據

2023-08-05 13:45:46

模型AI

2023-05-04 14:55:02

模型AI
點贊
收藏

51CTO技術棧公眾號

天堂av在线一区| 99视频有精品高清视频| 麻豆精品91| 欧美激情久久久| se在线电影| 亚洲国产成人在线| 亚洲精品成人三区| 欧美美女在线观看| 日韩成人av在线播放| www.成人69.com| 美女诱惑黄网站一区| 人体精品一二三区| 91精品韩国| 日韩欧美亚洲国产精品字幕久久久| 91福利电影| 成人爱爱电影网址| 国产精选在线观看91| 亚洲精品国产动漫| 理论片在线不卡免费观看| 涩涩涩在线视频| 日韩区在线观看| 国产一二三在线观看| 亚洲美女免费视频| 国产成人手机视频| 成人免费毛片嘿嘿连载视频| 亚洲乱码国产乱码精品天美传媒| 一区视频在线| 91成人伦理在线电影| 第九色区aⅴ天堂久久香| 久久久久日韩精品久久久男男| 激情中国色综合| 亚洲人a成www在线影院| 17videosex性欧美| 亚洲精品一区二区三区蜜桃下载| av中文字幕一区二区三区| 天天综合天天做天天综合| 天堂在线看视频| 亚洲综合视频在线| 九草视频在线观看| 精品国产成人在线| 青青九九免费视频在线| 大荫蒂欧美视频另类xxxx| 日本福利视频| 亚洲综合免费观看高清完整版在线| www亚洲天堂| 亚洲视频资源在线| jizzjizzji欧美| 一区二区三区中文在线观看| 欧美高清xxxxxkkkkk| 亚洲精品乱码久久久久久久久 | 日韩一区二区在线观看视频| 国产在线观看免费| 欧美日韩精品福利| 天堂8中文在线| 亚洲欧美成人在线| 欧美成人黄色| 午夜精品国产精品大乳美女| 最新亚洲精品| 91嫩草国产在线观看| 激情另类综合| 亚洲春色在线| caoporm超碰国产精品| 午夜宅男在线视频| 午夜一区二区三区视频| 成人亚洲综合天堂| 精品免费国产二区三区| 国产高潮在线| 麻豆国产va免费精品高清在线| 玖玖玖免费嫩草在线影院一区| 国产精品网址在线| 午夜在线一区| 黄色激情在线视频| 国产精品美日韩| 国产视频精选在线| 亚洲欧美激情另类校园| 深夜福利一区| 91精品国产综合久久香蕉最新版 | 中文字幕精品久久| 成功精品影院| dy888夜精品国产专区| 精品一区二区三区久久| 成人在线免费播放视频| 欧美日韩亚洲91| 黄色在线观看www| 欧美激情亚洲一区| 亚洲天堂免费| 国产精品videossex国产高清| 亚洲欧美电影一区二区| 18网站在线观看| 午夜精品久久17c| 一区二区三区国产在线| 日本一区午夜艳熟免费| 亚洲一区在线免费观看| 国产盗摄精品一区二区酒店| 午夜欧美大片免费观看| 国产模特精品视频久久久久| 久色视频在线播放| 疯狂做受xxxx欧美肥白少妇 | 国内精品久久国产| 风间由美一区二区三区在线观看| 邪恶网站在线观看| 这里是久久伊人| 精品深夜福利视频| 亚洲三区在线| 亚洲蜜臀av乱码久久精品蜜桃| 污片在线免费观看| 日本久久久久亚洲中字幕| 久久久久.com| 超碰超碰在线观看| 亚洲精品久久久久| 97精品一区二区| 成人一区二区免费视频| 欧美视频在线播放| 精品中国亚洲| www.国产在线视频| 欧美一级高清大全免费观看| 九热爱视频精品视频| 每日在线观看av| 欧美大片在线观看一区二区| 成人午夜av| 丝袜制服一区二区三区| 日韩精品在线免费观看| 欧美日韩一区自拍| 8848hh四虎| 久久久国产精品免费| 男女男精品视频| 在线国产情侣| 国产色综合天天综合网| 欧美激情一区二区三区蜜桃视频| 99在线视频影院| 国产精品国产精品国产专区蜜臀ah | 高潮在线视频| 亚洲www永久成人夜色| 国产精品欧美极品| 韩国成人在线| 日韩国产一区久久| 精品视频色一区| 欧美激情偷拍自拍| 橘梨纱av一区二区三区在线观看| 精品国产一区二区三区四区在线观看| 久久久噜噜噜| 久久久久久青草| 国产免费久久av| 亚洲欧美偷拍卡通变态| 中文字幕亚洲在线观看 | 884aa四虎影成人精品一区| 欧洲专线二区三区| 色偷偷亚洲第一成人综合网址| 久久精品视频在线| 99视频精品全部免费在线| 日本在线啊啊| 少妇高潮流白浆| 亚洲国产91色在线| 久久99热99| 欧美a级在线观看| 青青视频免费在线观看| 日韩精品免费在线| 国产一区二区三区免费播放| 韩国成人免费视频| 亚洲欧美日韩另类精品一区二区三区| 欧美大片拔萝卜| 韩国精品在线观看| 黑人巨大亚洲一区二区久| 最新av网址在线观看| 亚洲一区二区精品| 成人午夜视频网站| 欧美.com| 久草.com| 波多野结衣精品久久| 91精品国产91久久综合桃花| 日韩va亚洲va欧美va久久| 99re6在线精品视频免费播放| 亚洲国产欧美不卡在线观看 | 日韩精品视频在线观看免费| 麻豆91在线看| 日韩av中字| 亚洲 高清 成人 动漫| 欧美精品aaa| 亚洲福利一二三区| 亚洲精品激情| 大香伊人久久| 男人的天堂狠狠干| 欧美国产一区二区三区| 亚洲欧美激情在线| 99国产精品久久久久久久成人热| 国产欧洲在线| 中文字幕第88页| 亚洲va欧美va国产综合久久| 欧美色图天堂网| 久久超级碰视频| 2021年精品国产福利在线| 日本桃色视频| 国产乱人伦精品一区二区| 亚洲成年人影院在线| 成人精品高清在线| 午夜欧洲一区| 超碰在线caoporn| 啊啊啊一区二区| 99re在线观看| 久久久电影免费观看完整版|