国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

OpenAI o1強推理能提升安全性?長對話誘導干翻o1

人工智能 新聞
本片工作揭示了 AI 大模型在多輪對話場景下面臨的安全風險,甚至對有強推理能力的 OpenAI o1 也是如此。

本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學家邵婧等。

最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數學的評估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。

然而,推理能力的提升真的能解決安全問題嗎?推理能力越強,模型的安全性會越好嗎?近日,上海交大和上海人工智能實驗室的一篇論文提出了質疑。

這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對話場景下的安全風險,并開源了第一個多輪安全對齊數據集。

  • 論文地址:https://arxiv.org/abs/2410.10700 
  • 多輪安全對齊數據:https://huggingface.co/datasets/SafeMTData/SafeMTData
  • 代碼開源:https://github.com/renqibing/ActorAttack

這項研究是怎么得到上述結論的呢?我們先來看一個例子。

假設一個壞人想要詢問「如何制作炸彈」,直接詢問會得到 AI 的拒絕回答。然而,如果選擇從一個人物的生平問起(比如 Ted Kaczynski,他是一個制作炸彈的恐怖分子),AI 會主動提及他制作炸彈的經歷。在接下來的問題里,用戶誘導 AI 根據其之前的回答提供更多制作炸彈的細節。盡管所有的問題都沒有暴露用戶的有害意圖,用戶最終還是獲得了制作炸彈的知識。

圖片

當詳細查看 OpenAI o1 的「想法」時,研究人員驚奇地發現,o1 在開始的推理中確實識別到了用戶的有害意圖,并且聲稱要遵守安全政策。但是在隨后的推理中,o1 開始暴露了它的「危險想法」!它在想法中列舉了 Kaczynski 使用的策略和方法。最后 o1 在回答中詳細給出了制作炸彈的步驟,甚至教你如何增加爆炸物的威力!研究人員的方法在 Harmbench 上對 o1 的攻擊成功率達到了 60%,推理能力帶來的安全提升在多輪攻擊面前「失效」了。

圖片

除了「Ted Kaczynski」,和炸彈相關的人和物還有很多,這些都可以被用作攻擊線索,壞人可以把有害意圖隱藏在對相關的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索,研究人員設計了多輪攻擊算法 ActorAttack。受拉圖爾的行動者網絡理論啟發,研究人員構建了一個概念網絡,每個節點代表了不同類別的攻擊線索。研究人員進一步提出利用大模型的先驗知識來初始化網絡,以自動化地發現攻擊線索。在危險問題評測集 Harmbench 上的實驗結果表明,ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。

最后,研究人員基于 ActorAttack 開源了第一個多輪對話安全對齊數據集。使用多輪對話數據集微調的 AI,極大提升了其應對多輪攻擊的魯棒性。

社科理論啟發的安全視角

ActorAttack 的核心思想是受拉圖爾的「行動者 - 網絡理論」啟發的。研究人員認為,有害事物并非孤立存在,它們背后隱藏著一個巨大的網絡結構,技術、人、文化等都是這個復雜網絡中的節點(行動者),對有害事物產生影響。這些節點是潛在的攻擊線索,研究人員通過將有害意圖隱藏在對網絡節點的「無害」詢問中,可以逐漸誘導模型越獄。

自動大規模的發現攻擊線索 

具體來說,ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個階段。在「Pre-attack」階段,研究人員利用大語言模型的知識構建網絡,發掘潛在的攻擊線索。在「In-attack」階段,研究人員基于已發現的攻擊線索推測攻擊鏈,并逐步描繪如何一步步誤導模型。隨后,研究人員按照這一攻擊鏈生成多輪詢問,從而實施攻擊。

圖片

為了系統性地挖掘這些攻擊線索,研究人員根據節點對有害對象產生影響的方式不同,提出了六類不同的節點(比如例子中的 Ted Kaczynski 在制造炸彈方面屬于「執行(Execution)」節點)。每個節點包括人物和非人物(如書籍、媒體新聞、社會活動等)兩種類型。研究人員利用大模型的先驗知識,自動化地大規模發現網絡節點。每個網絡節點均可作為攻擊線索,從而形成多樣化的攻擊路徑。

圖片

ActorAttack 實現了更高效和多樣的攻擊

首先,研究人員選取了五類代表性的單輪攻擊方法作為比較基準,在 Harmbench 上的實驗結果表明,ActorAttack 相比于單輪攻擊方法,實現了最優的攻擊成功率。

圖片

接著,研究人員選擇了一個強大的多輪攻擊方法 Crescendo 進行比較,為了衡量多樣性,研究人員對每個多輪攻擊獨立運行了三次,計算它們之間的余弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預算下,每個方法的攻擊成功率和多樣性。研究人員發現 ActotAttack 在不同攻擊預算下,其高效性和多樣性兩個指標均優于 baseline 方法。

圖片

ActorAttack 可以根據不同的節點生成多樣的攻擊路徑,其好處之一是相比于單次攻擊,它可以從不同的路徑中找到更優路徑,生成更高質量的攻擊。為了從經驗上分析,研究人員采用了不同數量的節點,并記錄所有的節點中攻擊效果最好的得分。實驗結果表明,得分為 5 分(最高分)的攻擊比例隨著節點數量的增多逐漸增加,驗證了 ActorAttack 的優勢。

圖片

ActorAttack 生成的多輪提問可以繞過基于 LLM 的輸入檢測器。為了驗證 ActorAttack 隱藏有害意圖的有效性,研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問,以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會輸出提問為不安全的概率。實驗結果顯示,ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低,揭示了其攻擊的隱蔽性。

圖片

第一個多輪對話場景下的安全對齊數據集

為了緩解 AI 大模型在多輪對話場景下的安全風險,研究人員基于 ActorAttack 構造了第一個多輪對話安全對齊數據集。一個關鍵問題是決定在多輪對話中插入拒絕回復的位置。正如文中開頭展示的例子那樣,ActorAttack 在中間的詢問就可以誘導出模型的有害回復,即使沒有完全滿足用戶意圖,這樣的回復也可能被濫用,因此研究人員提出使用 Judge 模型定位到第一個出現有害回復的提問位置,并插入拒絕回復。

實驗結果展示,使用研究人員構造的多輪對話數據集微調 Llama-3-8B-instruct 極大提升了其應對多輪攻擊的魯棒性。研究人員還發現安全和有用性的權衡關系,并表示將緩解這一權衡作為未來工作。

圖片

展望

本片工作揭示了 AI 大模型在多輪對話場景下面臨的安全風險,甚至對有強推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長對話中也能保持安全意識成為了一個重要問題。研究人員基于 ActorAttack,構造出了高質量的多輪對話安全對齊數據,大幅提升了 AI 模型應對多輪攻擊的魯棒性,為提升人機交互的安全可信邁出了堅實的一步。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-24 11:01:03

2025-01-23 10:45:52

2024-11-25 15:50:00

模型訓練

2025-03-10 08:10:00

AI研究安全

2024-09-19 18:03:31

2025-01-23 14:53:15

2024-09-13 06:32:25

2024-10-05 00:00:00

2024-11-29 13:57:38

2024-12-05 10:16:14

2025-01-20 09:28:00

AI工具模型

2024-11-25 08:30:00

2025-02-03 14:17:27

2024-09-29 13:07:16

2024-09-13 10:06:21

2024-12-09 11:06:31

2025-11-10 08:51:00

LLMOpenAI模型

2024-10-23 09:20:00

2025-02-08 14:03:25

2024-09-25 09:30:16

點贊
收藏

51CTO技術棧公眾號

国内精品小视频| 欧美日韩成人免费视频| 欧美videos粗暴| 伊人一区二区三区| 精品久久久久久亚洲| 伊人国产精品| 日韩免费福利电影在线观看| 激情五月俺来也| 日本不卡一区二区| 国产精品亚洲一区二区三区| 秋霞国产精品| 欧美日韩亚洲综合在线 | 成人免费三级在线| 国产亚洲精品美女久久久m| 都市激情亚洲| 日韩精品中文字幕久久臀| caoporn国产精品| 亚洲影视九九影院在线观看| 久久伊人久久| 中文字幕欧美日韩在线| 日韩三级影院| 一个色综合av| 久热精品在线播放| 久久久久久亚洲综合| 四虎影院一区二区| 日本特黄久久久高潮| 成人av影视在线| 成人网18免费网站| 26uuu日韩精品一区二区| 国产精品麻豆成人av电影艾秋| 6080国产精品一区二区| 国产免费视频在线| 欧美丝袜第一区| 一级毛片免费看| 亚洲男人天堂av| 成人高清免费| 亚洲色图视频网| 成人免费在线观看网站| 91麻豆国产精品久久| 国产精品久久久久9999爆乳| 精品一区二区三区免费播放| 日韩高清av| 奇米精品一区二区三区在线观看 | 天天干天天操天天玩| 成人黄色大片在线观看| 国产精品国三级国产av| 国产v综合v亚洲欧| 99热这里只有精品免费| 毛片一区二区三区| 三年中国中文在线观看免费播放| 美腿丝袜亚洲一区| 欧洲金发美女大战黑人| 国产suv精品一区二区6| 少妇人妻在线视频| 国产精品三级视频| 日韩黄色网址| 欧美视频在线观看一区| 日本孕妇大胆孕交无码| 日韩精品视频在线| 日韩电影精品| 欧美成人免费一级人片100| 成人线上播放| 国产精品久久久久99| 欧美激情在线| 欧美一二三区| 激情综合色综合久久| 日韩国产一级片| 中文字幕在线观看不卡视频| 友田真希在线| 欧美日韩国产高清一区二区| 亚洲国产一区二区三区在线播| 日韩va亚洲va欧美va久久| 熟女视频一区二区三区| 欧美国产1区2区| 九色在线观看| 日韩激情av在线播放| 日本久久一区| 国产精品成人品| 99热精品在线| 美女扒开大腿让男人桶| 最好看的中文字幕久久| 六十路在线观看| 日韩精品视频在线| 欧洲亚洲一区二区三区| 国产三区二区一区久久| 国产一区二区毛片| 性色a∨人人爽网站| 777欧美精品| 欧美成人免费全部网站| 国产999视频| 男人的天堂亚洲在线| 人人干视频在线| 亚洲午夜精品17c| 国产精品国产亚洲精品看不卡| 国产三级欧美三级日产三级99| 亚洲1024| 亚洲人午夜色婷婷| 欧美精品一区二区久久| 欧美久久在线| 婷婷亚洲图片| 一本色道婷婷久久欧美| 中文字幕精品在线不卡| 国产福利免费在线观看| 中文国产成人精品| 欧美国产专区| 国产视频一视频二| 在线观看一区二区精品视频| 农村妇女一区二区| 国产免费一区二区三区| 久久伊99综合婷婷久久伊| 国产视频第一区| 日韩中文av在线| 亚洲麻豆一区| 天天色综合4| 日韩高清不卡av| 亚洲电影影音先锋| 中文字幕在线观看第三页| 欧美久久久一区| 国产精品探花在线观看| 欧美日韩福利在线| 日韩亚洲欧美在线| 天天做天天爱天天综合网2021| 波多野结衣乳巨码无在线| 欧美精品乱人伦久久久久久| 香蕉视频一区| 成人免费观看在线| 欧美卡1卡2卡| 日韩av片子| 亚洲成人福利在线观看| 亚洲精品福利在线观看| 欧美精品一卡| 日本三级电影网| 欧美成人一区二区三区电影| 蜜臀av一区二区| 97人人在线| 91久久精品国产91久久性色| 国产精品久久久久一区二区三区共| 大菠萝精品导航| 精品国产乱码久久久久| 婷婷中文字幕一区三区| 国产精品白丝av嫩草影院| 欧妇女乱妇女乱视频| 日韩一二在线观看| 欧美精品首页| 精品一二三区视频| 国产精品中文字幕久久久| 国产精品视频九色porn| 涩涩涩久久久成人精品| 日韩欧美一级在线| 亚洲级视频在线观看免费1级| 亚洲精选91| 日本在线www| 成人综合色站| 色天使色偷偷av一区二区| 不卡av一区二区| 国产a国产a国产a| 欧美一级高清免费| 中文字幕亚洲成人| 国产精品一区二区三区美女| 一级黄色香蕉视频| 欧美激情区在线播放| 99久久99久久综合| 欧美成人一二区| 久久网站免费视频| 色琪琪综合男人的天堂aⅴ视频| 国产一区二区按摩在线观看| a√中文在线观看| 亚洲午夜高清视频| 亚洲黄在线观看| 国产精品一区在线观看你懂的| 白浆在线视频| 日本不卡一区二区三区四区| 亚洲精品在线视频| 成人av中文字幕| 白嫩亚洲一区二区三区| av在线无限看| 国产91精品久久久| 天天操天天干天天综合网| 91九色精品| 成人毛片av在线| 国产在线观看欧美| 欧美精品激情视频| 亚洲一区二区三区不卡国产欧美| 亚洲a一区二区三区| 精品99又大又爽又硬少妇毛片| 精品一卡二卡三卡四卡日本乱码| 日韩欧美成人一区二区| 东方欧美亚洲色图在线| www.成人| 国产在线制服美女| 精品视频第一区| 精品夜色国产国偷在线| 91色九色蝌蚪| 欧美日韩一二| 麻豆tv入口在线看| 青青青在线视频播放| 国产不卡av在线| 欧美日韩国产高清一区二区| 粉嫩aⅴ一区二区三区四区五区| 国产精品zjzjzj在线观看|