国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

多模態大模型存在「內心預警」,無需訓練,就能識別越獄攻擊

人工智能 新聞
安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。

多模態大模型崛起,安全問題緊隨其后

近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現 ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

為應對這一挑戰,已有方法嘗試用跨模態安全微調、系統提示詞設計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

模型其實 “心里有數”:越獄時隱藏狀態在報警

來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

他們的核心發現是:即使 LVLMs 表面上被越獄、生成了不當內容,其隱藏狀態中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態的 “危險感知” 機制是有區分的。

論文已被 ACL2025 main conference 收錄。

圖片

  • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
  • arxiv 鏈接:https://arxiv.org/abs/2502.14744

從 “拒絕語義” 中解碼多模態大模型的安全感知

圖片

圖 1: 基于模型自身激活模式的多模態越獄檢測方法。

首先,研究者從模型拒絕回答不安全輸入的響應中,統計出一組高頻出現的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。

圖片

實驗結果顯示,F 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F 的整體數值普遍較低;而對于不安全輸入,F 通常在中間層逐步升高至峰值,隨后在最后幾層出現明顯回落。此外,無論輸入是否安全,F 在最后一層的數值仍普遍高于倒數第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

為進一步分析模型的安全響應機制,研究者構建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯合的攻擊樣本。

圖片

如圖 2 所示,每組樣本都計算出其對應的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產生的激活差異。

圖片

圖片

圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關鍵層。

模態不同,響應路徑也不同

如圖 3 所示,兩種模態的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應整體偏后,且強度相對較弱,說明視覺模態的引入在一定程度上削弱了模型拒答機制的早期響應能力。

圖片

圖 3:純文本樣本和跨模態樣本的 FDV 曲線。

實驗還發現如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變弱,越獄攻擊就更容易成功。有趣的是,研究者發現,僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應強度也降低,從而削弱了模型的安全防護能力。

最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。

圖片

進一步地,只需累積在這些關鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。

圖片

實驗結果

研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數據集上測試了方法的穩健性。該數據集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。

圖片

可視化

圖片

圖 4:每一層隱藏狀態中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構成的語義平面。

結論與展望

安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。該方法結構輕量、部署靈活,已在多個模型與攻擊類型中展現出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產生直接調控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態信息與模型安全性的內在關聯,推動多模態大模型朝著更可靠、更可控的方向發展。

作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用,引領 AI 在生活消費領域的技術創新。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-17 16:02:00

2025-01-08 08:21:16

2025-04-07 00:00:00

多模態大模型

2025-09-08 08:50:00

AI模型訓練

2023-12-28 17:31:44

PixelLM性能模型

2025-09-16 09:35:52

2024-12-12 00:25:09

2023-07-04 10:11:28

數據模型

2023-11-29 15:00:00

數據訓練

2025-10-16 09:00:00

2024-12-30 00:01:00

多模態大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-03-25 12:30:18

AI訓練開源

2024-09-25 14:53:00

2024-06-03 06:49:53

2023-11-20 08:52:46

模型訓練

2024-11-12 10:20:00

模型數據
點贊
收藏

51CTO技術棧公眾號

蜜臀av无码一区二区三区| 国产欧美日韩一区二区三区在线观看| 国产免费成人在线视频| 国产一区二区久久| 国产精品66部| 免费亚洲网站| 一区二区欧美在线| 国内自拍视频网| 久久精品嫩草影院| 欧美亚洲尤物久久| 99精品免费在线观看| 欧美男男freegayvideosroom| 国产日韩欧美激情| 成人激情春色网| 久久偷窥视频| 亚洲男同性恋视频| 国产精品久久电影观看| 91伦理视频在线观看| 九九久久精品视频| 91九色单男在线观看| www.51av欧美视频| 激情久久av一区av二区av三区 | 久久在线中文字幕| 国产一区国产二区国产三区| 欧美一卡二卡在线观看| 久草在线资源视频| 99精品视频在线免费观看| 一个色的综合| 美日韩精品视频| 久精品国产欧美| 欧美激情综合色综合啪啪| 性视频1819p久久| 99久久婷婷国产综合精品首页| 欧美老肥妇做.爰bbww| 最近中文字幕在线中文视频 | 147欧美人体大胆444| 久久香蕉精品香蕉| 欧日韩不卡在线视频| 99er精品视频| 国产福利精品在线| 国产尤物久久久| 色悠悠亚洲一区二区| 天天综合天天操| 亚洲一区二区三区小说| 国产高潮免费视频| 91在线观看地址| 成人拍拍拍免费视频网站| 国产精品免费看片| 日本激情免费| 欧美亚洲国产bt| 国产无遮挡裸体视频在线观看| 日韩午夜在线播放| 亚洲丝袜精品| 欧美三级日韩在线| 日韩电影大全网站| 欧美一级淫片aaaaaaa视频| 欧美**vk| 欧美xxxx黑人又粗又长精品| 免费不卡在线观看| 欧美激情高清视频| 欧美激情视频一区二区三区免费| 97av自拍| 国产性做久久久久久| 日韩av高清在线| 伊人亚洲精品| 亚洲国产你懂的| av在线播放国产| 岛国av在线不卡| 日本h片久久| 91精品视频观看| 成人一二三区视频| 男女激情视频网站| 国产香蕉一区二区三区在线视频| 国产精品日韩精品中文字幕| 水蜜桃亚洲精品| 午夜a成v人精品| 我要色综合中文字幕| 成人动漫视频在线观看免费| 成人性生交大片免费看中文网站| 免费在线视频一级不卡| 欧美另类在线观看| 免费在线观看成人av| av在线影视| 视频直播国产精品| 欧美亚洲一区| 国产尤物视频在线| 久久久久久久久国产| 国产欧美日韩综合一区在线播放 | 欧美精品日本| 色黄视频在线| 2019国产精品自在线拍国产不卡| 成人综合婷婷国产精品久久免费| 黄色网页在线免费观看| 91精品久久久久久久久久久| 亚洲精品成人精品456| 51社区在线成人免费视频| 亚洲精品女av网站| 久久久久久97三级| 国产精品久久久久久久龚玥菲| 久久久97精品| 免费在线观看视频一区| 黄av在线播放| www.久久爱.cn| 中文字幕亚洲在| 成人羞羞网站入口| 在线观影网站| 美国av一区二区三区| 欧美一区二区在线播放| 国产农村妇女毛片精品久久莱园子 | 9色国产精品| 欧美日韩在线精品一区二区三区激情综| 亚洲a∨日韩av高清在线观看| 精品亚洲成a人| 狠狠一区二区三区| 伊人永久在线| 中文字幕中文字幕在线中一区高清| 精品不卡在线视频| 欧美 日韩 国产 一区| 午夜影院在线| 欧美亚洲视频在线看网址| 国产无人区一区二区三区| 成人国产一区| 性视频在线播放| 国产视频一区二区不卡| 亚洲精品福利视频| 久久99精品久久久久久久久久久久 | 韩国精品主播一区二区在线观看| 国产天堂在线播放| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 亚洲一区在线视频| 任你躁在线精品免费| 人妖欧美1区| av日韩在线免费| 国产欧美精品aaaaaa片| 日韩69视频在线观看| 日韩大陆欧美高清视频区| 亚洲精品乱码久久久久久日本蜜臀| 在线视频精品| 亚洲+小说+欧美+激情+另类| 高清不卡av| 欧美另类自拍| 午夜爽爽视频| 香蕉视频网站入口| 中文字幕色呦呦| 免费看成人午夜电影| 国模精品视频一区二区三区| 538prom精品视频线放| 亚洲国产视频在线| 国产区在线观看成人精品| 麻豆精品视频在线观看免费| 9191国语精品高清在线| 高清日韩中文字幕| 99re6热只有精品免费观看| 亚洲天堂一区二区| 国产嫩草在线视频| 国产鲁鲁视频在线观看免费| 日夜干在线视频| 97色伦图片97色伦在线电影| 91国产免费观看| 国产精品一区二区中文字幕| 96av在线| 91av亚洲| 自拍偷自拍亚洲精品被多人伦好爽| 男女免费观看在线爽爽爽视频| 在线中文字幕-区二区三区四区 | 久久九九久久九九| 成人黄色国产精品网站大全在线免费观看 | 欧美日韩一区二区三区| 亚洲欧美视频在线观看| 久久综合一区二区| 麻豆成人在线观看| 国产精品一区二区91| 91丨porny丨国产入口| 国产精品一品二品| 久久精品水蜜桃av综合天堂| 亚洲激情欧美激情| 在线亚洲一区二区| 夜夜嗨av一区二区三区网页| 在线视频欧美精品| 欧美大片在线观看一区二区| 亚洲桃花岛网站| 色综合老司机第九色激情| 欧美成aaa人片在线观看蜜臀| 国产97在线观看| 欧美日韩国产高清视频| 菠萝蜜视频在线观看入口| 国产igao激情在线入口| 国产区av在线| 日本精品在线播放| 欧美精品九九| 国产日产亚洲精品系列| 黑人欧美xxxx| 日韩中文娱乐网| 国产精品久久精品视| 国产精品久久久久久久乖乖| 欧美孕妇孕交xxⅹ孕妇交| 999福利在线视频| 欧美日韩久久| 国产在线视视频有精品| 精品国产老师黑色丝袜高跟鞋|