国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI越會(huì)思考,越容易被騙?「思維鏈劫持」攻擊成功率超過(guò)90%

人工智能 新聞
獨(dú)立研究者 Jianli Zhao 等人近日的一項(xiàng)新研究發(fā)現(xiàn),通過(guò)在有害請(qǐng)求前填充一長(zhǎng)串無(wú)害的解謎推理序列(harmless puzzle reasoning),就能成功對(duì)推理模型實(shí)現(xiàn)越獄攻擊。

思維鏈很有用,能讓模型具備更強(qiáng)大的推理能力,同時(shí)也能提升模型的拒絕能力(refusal),進(jìn)而增強(qiáng)其安全性。比如,我們可以讓推理模型在思維過(guò)程中對(duì)之前的結(jié)果進(jìn)行多輪反思,從而避免有害回答。

然而,反轉(zhuǎn)來(lái)了!獨(dú)立研究者 Jianli Zhao 等人近日的一項(xiàng)新研究發(fā)現(xiàn),通過(guò)在有害請(qǐng)求前填充一長(zhǎng)串無(wú)害的解謎推理序列(harmless puzzle reasoning),就能成功對(duì)推理模型實(shí)現(xiàn)越獄攻擊。他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking)。

做個(gè)類比,就像你試圖繞過(guò)一個(gè)高度警惕的保安 (AI 的安全系統(tǒng))。你沒(méi)有硬闖,而是遞給他一個(gè)極其復(fù)雜的 1000 塊拼圖 (良性的推理鏈),并誠(chéng)懇地請(qǐng)他幫忙。這位推理愛(ài)好者保安立刻被吸引,全神貫注地投入到解謎中,他的全部注意力都從「防衛(wèi)」轉(zhuǎn)移到了「解題」上。就在他放下最后一塊拼圖,感到心滿意足時(shí),你順口說(shuō)道:「太好了,那我現(xiàn)在就拿走這袋黃金了」 (有害指令)。此時(shí),他的安全防備 (拒絕信號(hào)) 已經(jīng)被「拼圖」稀釋到了最低點(diǎn),于是下意識(shí)地?fù)]手讓你通過(guò)。

這聽(tīng)起來(lái)很荒謬,但這正是最近一項(xiàng)研究揭示的思維鏈劫持攻擊的核心原理:通過(guò)讓 AI 先執(zhí)行一長(zhǎng)串無(wú)害的推理,其內(nèi)部的安全防線會(huì)被「稀釋」,從而讓后續(xù)的有害指令「趁虛而入」。

在 HarmBench 基準(zhǔn)上,思維鏈劫持對(duì) Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達(dá)到了 99%、94%、100% 和 94%,遠(yuǎn)遠(yuǎn)超過(guò)以往針對(duì)推理模型的越獄方法。

  • 論文標(biāo)題:Chain-of-Thought Hijacking
  • 論文地址:https://arxiv.org/abs/2510.26418

思維鏈劫持:攻擊設(shè)計(jì)

思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會(huì)在有害指令前添加一個(gè)冗長(zhǎng)的、良性的推理前言(reasoning preface),并輔以一個(gè)最終答案提示(final-answer cue)。這種結(jié)構(gòu)系統(tǒng)性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號(hào),而提示則將注意力轉(zhuǎn)移到了答案區(qū)域。

為了規(guī)模化地構(gòu)建攻擊,該團(tuán)隊(duì)使用一個(gè)輔助 LLM 實(shí)現(xiàn)了一個(gè)自動(dòng)化流程(Seduction),用于生成候選的推理前言并整合有害內(nèi)容。

每個(gè)候選項(xiàng)都會(huì)通過(guò)對(duì)目標(biāo)模型的評(píng)判調(diào)用(judge call)來(lái)評(píng)分,以提供如下信息:

  • 輸出是否為拒絕
  • CoT 的長(zhǎng)度

這個(gè)黑盒反饋循環(huán)會(huì)迭代地優(yōu)化提示,從而在無(wú)需訪問(wèn)模型內(nèi)部參數(shù)的情況下,產(chǎn)生有效的越獄。下圖展示了一些示例。

在 HarmBench 上的主要實(shí)驗(yàn)

該團(tuán)隊(duì)采用了幾種針對(duì)推理模型的特定越獄方法作為基線,包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個(gè)越獄樣本的計(jì)算成本高昂,該團(tuán)隊(duì)使用 HarmBench 的前 100 個(gè)樣本作為基準(zhǔn)。

目標(biāo)模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有評(píng)估均在 Chao et al.(2024b)的統(tǒng)一評(píng)判協(xié)議下進(jìn)行。該團(tuán)隊(duì)報(bào)告攻擊成功率(ASR)作為評(píng)估越獄有效性的主要指標(biāo)。

結(jié)果,在所有模型上,思維鏈劫持的表現(xiàn)都一致優(yōu)于基線方法,包括在最前沿的專有系統(tǒng)上。這表明,擴(kuò)展的推理序列可以作為一個(gè)全新的、極易被利用的攻擊面。

GPT-5-mini 上的推理投入研究

該團(tuán)隊(duì)進(jìn)一步在 GPT-5-mini 上,使用 50 個(gè) HarmBench 樣本測(cè)試了思維鏈劫持在不同推理投入(reasoning-effort)設(shè)置(最小、低、高)下的表現(xiàn)。

有趣的是,攻擊成功率在「低投入」下最高,這表明推理投入和 CoT 長(zhǎng)度是相關(guān)但又不同的控制變量。更長(zhǎng)的推理并不保證更強(qiáng)的穩(wěn)健性 —— 在某些情況下它反而降低了穩(wěn)健性。

大型推理模型中的拒絕方向

該團(tuán)隊(duì)也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個(gè)單一方向。

通過(guò)對(duì)比模型在處理有害指令與無(wú)害指令時(shí)的平均激活差異,可以計(jì)算出一個(gè)拒絕方向(refusal direction)。這個(gè)方向代表了區(qū)分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征,該團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更穩(wěn)健、更復(fù)雜的推理模型 ——Qwen3-14B,該模型擁有 40 個(gè)層。

根據(jù)消融得分、轉(zhuǎn)向(steering)有效性和 KL 散度約束,該團(tuán)隊(duì)在第 25 層、位置 -4 處觀察到了最強(qiáng)的拒絕方向。

所有評(píng)估均使用 JailbreakBench 數(shù)據(jù)集,并使用子字符串匹配和 DeepSeek-v3.1 作為評(píng)判者(judge)。

該團(tuán)隊(duì)也對(duì)具體機(jī)制進(jìn)行了分析。他們發(fā)現(xiàn),在推理過(guò)程中,下一個(gè) token 的激活反映了對(duì)先前所有 token 的注意力。有害意圖的 token 會(huì)放大拒絕方向的信號(hào),而良性 token 則會(huì)削弱它。通過(guò)迫使模型生成長(zhǎng)鏈的良性推理,有害的 token 在被關(guān)注的上下文中只占很小一部分。結(jié)果,拒絕信號(hào)被稀釋到閾值以下,導(dǎo)致有害的補(bǔ)全內(nèi)容得以「蒙混過(guò)關(guān)」。

該團(tuán)隊(duì)稱這種效應(yīng)為拒絕稀釋(refusal dilution)。他們還在論文中進(jìn)行了更進(jìn)一步的細(xì)致分析,詳見(jiàn)原論文。

結(jié)果與討論

研究團(tuán)隊(duì)的結(jié)果表明,思維鏈(CoT)推理雖然能提升模型的準(zhǔn)確性,但同時(shí)也引入了新的安全漏洞。實(shí)驗(yàn)進(jìn)一步顯示,這類攻擊具有普遍性。

機(jī)制分析發(fā)現(xiàn),即使在具備推理增強(qiáng)的模型架構(gòu)中,模型的拒絕行為主要由一個(gè)低維信號(hào)(拒絕方向)控制。然而,這個(gè)信號(hào)非常脆弱:當(dāng)推理鏈變長(zhǎng)時(shí),良性的推理內(nèi)容會(huì)稀釋拒絕激活,注意力也會(huì)逐漸偏離有害 token。

因此,這一發(fā)現(xiàn)直接挑戰(zhàn)了「更多推理帶來(lái)更強(qiáng)穩(wěn)健性」的假設(shè)。相反,延長(zhǎng)推理鏈所帶來(lái)的額外計(jì)算可能反而加劇安全失效,尤其是在專門優(yōu)化長(zhǎng) CoT 的模型中。由此,那些依賴淺層拒絕啟發(fā)式(shallow refusal heuristics)卻未能隨推理深度共同擴(kuò)展安全機(jī)制的對(duì)齊策略,其可靠性受到質(zhì)疑。

在緩解方面,研究表明僅修補(bǔ)提示并不足以解決問(wèn)題。現(xiàn)有防御多局限于特定領(lǐng)域,且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過(guò)程本身,例如跨層監(jiān)控拒絕激活、抑制拒絕信號(hào)稀釋,或確保模型在長(zhǎng)推理過(guò)程中始終關(guān)注潛在有害的文本跨度(spans)。這仍有待進(jìn)一步探索。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2021-01-18 11:09:42

區(qū)塊鏈比特幣工具

2025-08-06 06:00:00

AI人工智能AI安全

2014-08-29 10:05:02

2024-07-25 12:35:33

2025-02-12 10:05:00

AILLM訓(xùn)練

2025-05-26 09:06:00

2018-05-13 15:56:28

工業(yè)4.0制造業(yè)物聯(lián)網(wǎng)

2021-04-27 22:38:41

代碼開(kāi)發(fā)前端

2012-10-23 14:27:55

無(wú)奈大裁員濾鏡拍照

2018-10-09 15:21:09

路由器定期重啟

2021-02-22 11:00:39

機(jī)器學(xué)習(xí)人工智能AI

2025-05-08 06:00:00

AI幻覺(jué)AI人工智能

2025-07-29 00:15:00

2018-05-05 08:54:24

2023-11-10 15:36:10

2022-07-29 08:40:20

設(shè)計(jì)模式責(zé)任鏈場(chǎng)景

2025-08-25 08:42:00

代碼智能安全

2025-10-16 07:42:18

2024-01-03 17:39:23

云計(jì)算混合云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

极品国产人妖chinesets亚洲人妖| 日韩综合小视频| 国产亚洲一级高清| 日韩精品视频一区二区三区| 91av在线播放| 97久久香蕉国产线看观看| 岛国av在线不卡| 欧日韩免费视频| 亚洲欧美日韩视频二区| 最近的2019中文字幕免费一页| yellow视频在线观看一区二区| 久久综合九色综合88i| 日韩久久久久| 欧美巨乳美女视频| 在线观看免费av网| 精品一区亚洲| 欧美日韩日日骚| 男人午夜天堂| 国产一区二区三区不卡视频网站| 久久色在线播放| 亚洲人成777| 久久国产精品影视| 国产美女精品视频免费播放软件| 九九九久久久久久| 香蕉久久99| 91欧美激情另类亚洲| 欧美在线观看天堂一区二区三区| 国产91社区| 精品一区中文字幕| 国产麻花豆剧传媒精品mv在线| 中文字幕在线观看一区| 一二三四社区在线视频| 在线观看亚洲精品| 波多野结衣在线播放| 一区二区在线视频播放| 欧美美女啪啪| 久久精品国产精品青草色艺| 韩国av一区二区三区在线观看| 欧美牲交a欧美牲交aⅴ免费下载| 亚洲一区二区三区国产| 黄黄的网站在线观看| 在线不卡国产精品| 国产探花在线精品一区二区| 久久99九九| 99久久99久久久精品齐齐| 毛片一级免费一级| 欧美成人综合网站| 亚洲国产成人二区| 国产精品久久久999| 日韩国产精品久久久久久亚洲| 日本成年人网址| 欧美视频在线一区| 国产一区二区| 久久综合狠狠综合久久综青草| 91蜜桃网址入口| 91caoporm在线视频| 久久综合久久88| 亚洲国内自拍| www.夜夜爽| 日韩一区二区在线播放| 欧美18免费视频| 在线视频不卡一区二区| 一区二区三区精密机械公司| 丁香花在线观看完整版电影| 97在线视频精品| 美女在线一区二区| 最近中文字幕在线| 在线观看日韩专区| 激情一区二区| eeuss鲁片一区| 日韩精品极品视频免费观看| 国产国产精品| 久久精品网站视频| 精品美女一区二区| 色综合久久一区二区三区| 国产乱淫av片杨贵妃| 欧美色视频一区| 香蕉久久精品| 精品这里只有精品| 日韩精品中午字幕| 成人国产亚洲欧美成人综合网| 国产一区二区在线免费播放| 久久久青草青青国产亚洲免观| 亚洲国产三级在线| 337p日本欧洲亚洲大胆鲁鲁| 久久免费视频网| 日韩—二三区免费观看av| 日本免费视频www| 最近2019中文字幕mv免费看| 在线精品观看| 特级全黄一级毛片| www.精品av.com| 日韩激情一二三区| 欧洲伦理片一区 二区 三区| 欧美激情国产高清| 国产综合色视频| 欧美激情视频在线播放| 国产精品视频导航| 国产精品不卡在线| 久久青草视频| 2022中文字幕| 日韩av中文字幕在线播放| 国产精品多人| 黄动漫在线观看| 国内精品视频久久| 97国产一区二区| 欧美男女交配| 中文字幕日韩精品久久| 欧美二区在线观看| 亚洲福利国产| 丝袜视频国产在线播放| 国产精品久久精品| 中文字幕在线不卡一区| 91久久青草| 国自产拍偷拍精品啪啪一区二区 | 国产成人精品一区二区三区福利 | 日韩欧美国产激情| 杨幂一区二区三区免费看视频| aa在线免费观看| 久久亚洲一区二区三区四区五区高| 国产精品资源在线看| 涩涩在线视频| 看全色黄大色大片| 亚洲欧美精品中文字幕在线| 韩国一区二区三区| 亚洲精品一区| 国产二区视频在线| 色狠狠av一区二区三区香蕉蜜桃| 福利电影一区二区三区| 日本欧美韩国| 毛片在线视频播放| 九九久久综合网站| 国产精品福利一区| 久久综合欧美| 四虎精品在永久在线观看| 成人片在线免费看| 日韩视频中午一区| 韩国av一区二区三区在线观看| 巨茎人妖videos另类| 亚洲人精品午夜射精日韩 | 不卡一卡二卡三乱码免费网站| 国产一区二区精品调教| 男人日女人视频网站| 久久国产精彩视频| 国产精品传媒在线| 日韩1区2区| 国产盗摄在线观看| 四虎精品欧美一区二区免费| 精品国模在线视频| 亚洲欧美日韩人成在线播放| 欧美高清在线| 国产高清一区二区三区视频| 午夜亚洲福利| 久久夜色精品国产噜噜av小说| 日本特黄a级高清免费大片| 亚洲永久一区二区三区在线| 日韩视频精品在线| 精品一区二区三区在线播放视频| 91社区在线高清| 免费全黄无遮挡裸体毛片| 欧美成人高清电影在线| 日本午夜精品| 亚洲男人都懂的网站| 久久亚洲高清| 亚洲视频电影图片偷拍一区| 国产精品午夜在线| 久久成人综合| 污污的视频在线观看| 好吊妞无缓冲视频观看| 青青草一区二区| 欧美日韩久久不卡| 国产成人亚洲综合a∨婷婷图片| 亚洲精品国产九九九| 在线观看入口黄最新永久免费国产| 国产伦精品一区二区三区视频黑人| 亚洲成av人片在线观看香蕉| 久久久久国产精品免费免费搜索| 成人综合专区| 操人在线观看| 无限国产资源| 伊人av成人| 国产a∨精品一区二区三区不卡| 日韩一区国产二区欧美三区| 国产亚洲欧美在线| 国产精品v欧美精品v日本精品动漫| 性xxxxfreexxxxx欧美丶| 免费在线黄网| 一级日韩一区在线观看| 91成品人片a无限观看| 欧美一级欧美三级在线观看 | 欧美多人爱爱视频网站| 在线中文字幕一区| 成人性视频网站| 一区二区三区四区在线观看国产日韩| 欧美激情网站| 亚洲男人网站| 国产熟女高潮视频| 欧美一区二区高清在线观看| 久久久久久久色| 亚洲成人av中文字幕|