国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ICML 2025 Oral | 從「淺對齊」到「深思熟慮」,清華牽頭搭起大模型安全的下一級階梯

人工智能 新聞
清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。

本工作共同第一作者包括:張亦弛,清華大學計算機系三年級博士生,師從朱軍教授,研究方向是多模態大模型和大模型安全,在CVPR、NeurIPS、ICML等頂會發表多篇論文,曾主導開發了首個多模態大模型可信度全面評測基準MultiTrust;張思源,清華大學計算機系一年級碩士生,導師是蘇航副研究員,研究方向是大模型安全與對齊算法。本文通訊作者是清華大學人工智能學院董胤蓬助理教授和計算機系朱軍教授。其他合作者來自北航、瑞萊智慧、阿里安全、百川智能等單位。

在大語言模型(LLM)加速進入法律、醫療、金融等高風險應用場景的當下,“安全對齊”不再只是一個選項,而是每一位模型開發者與AI落地者都必須正面應對的挑戰。然而,如今廣泛采用的對齊方式,往往只是讓模型在檢測到風險提示時機械地回復一句“很抱歉,我無法滿足你的請求”——這種表面看似“安全”的機制,實則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為 “淺對齊(Shallow Alignment)”[1]:模型的預測分布僅在回復開頭做出了有效偏移,卻從未真正理解潛在的風險語義。一旦越獄提示換個包裝,模型就輕易“破防”;而過度依賴這類簡單訓練,也往往會犧牲模型在通用任務中的語言能力與響應質量,帶來“安全 vs. 能力”的兩難局面。

圖片

越獄攻擊可以繞過大模型安全護欄[2]

在這一背景下,清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。與其讓模型學會“條件反射式的閉嘴”,不如讓它真正學會思考之后再開口。STAIR通過三步走增強了對齊流程,驗證了測試時擴展(Test-Time Scaling)對模型安全的貢獻。在不降低通用能力的前提下,STAIR可以顯著提升開源模型在越獄攻擊下的魯棒性,在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”,而是教模型深入分析風險。它不再是安全與性能的零和博弈,而是將二者在推理下有機統一。STAIR的階梯引領大模型安全對齊從本能拒答走向深度自省,從格式安全邁向思維安全。

這篇題為Improving SafeTy Alignment with Introspective Reasoning的工作剛剛被ICML2025收錄為Oral論文(錄用率~1%)。而在STAIR的理論實踐基礎上,研究團隊進一步推出了RealSafe-R1模型,率先針對開源的DeepSeek-R1模型進行安全對齊,可以在不犧牲模型推理能力的前提下大幅提升安全性。相關代碼、訓練數據、模型均已開源,詳細算法和實驗細節請參考原始論文。

圖片

  • 論文標題:STAIR: Improving Safety Alignment with Introspective Reasoning
  • 論文鏈接:https://arxiv.org/abs/2502.02384
  • 開源鏈接:https://github.com/thu-ml/STAIR

圖片

  • 論文標題:RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
  • 論文鏈接:https://arxiv.org/abs/2504.10081
  • 開源鏈接:https://huggingface.co/RealSafe

接下來,讓我們一起“登梯”...

向安全對齊引入系統2思考

當前安全對齊方法大多基于簡短拒答的數據形式訓練模型,使得模型隱式建立了危險輸入到直接拒答的直覺性映射,類似于系統1快思考(System 1 Thinking)。研究者們受系統2慢思維(System 2 Thinking)提升模型推理能力的技術路線啟發,設計了STAIR對齊框架,力求幫助大模型真正理解風險指令,進行系統化的自我思考和風險評估,而不是條件反射式地拒絕回答。

圖片

從“本能拒絕”到“理性分析”的三步走

STAIR框架共包含三個階段:結構化思維鏈格式對齊、基于安全感知蒙特卡洛樹搜索的自提升、測試時擴展,能夠在不具備推理能力的模型上,實現性能與安全的雙效提升。

圖片

階段 1:結構化推理對齊

第一階段通過少量的結構化思維鏈數據進行有監督微調,使模型初步獲得推理能力。研究者設計了一個分步式的輸出格式,每一步推理都包括一個總結標題和詳細描述,從而幫助模型在應對風險時能夠逐步分析問題,并調用GPT-4o對安全和通用問題進行回復生成。模型在分步的內省深思后再正式輸出明確的回答,該回答需要經過風險識別后,作出合理拒絕或給出無害信息。這一階段的訓練也為后續按步驟切分回答,進行樹搜索和推理時搜索提供了基礎。

階段 2:基于安全感知蒙特卡洛樹搜索的自提升

第二階段使用蒙特卡洛樹搜索的方式構造自采樣的step-level偏序數據對,并使用DPO損失微調模型。研究者以每一個推理步驟/最終回答步驟作為一次動作,但與傳統蒙特卡洛樹搜索不同的是,為了同時優化模型的安全性和通用能力,在搜索過程中獎勵信號由安全分數和有用性分數兩個維度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。獎勵函數的設計一共包括3個條件:安全優先條件,有用性雙向條件,以及在僅考慮一個維度時能退化為原始蒙特卡洛搜索的條件。

圖片

  • 安全優先條件:安全回復總能獲得比不安全回復更高的分數。

圖片

  • 有用性雙向條件:當回復是安全時,越詳細越有用則分數越高;當回復存在風險時,越能幫助解決問題則分數越低。

圖片

  • 單一維度退化條件:當只考慮安全性或有用性中的一個維度時,蒙特卡洛搜索的過程退化為使用對應分數的搜索。這可以保證多元評分不影響原有搜索框架的效果。

基于以上條件,研究者通過理論推導,給出了一個滿足要求的最簡單形式的獎勵函數:R(H, S) = S·H + 2S,其中分數由模型進行自我打分。在經過足夠多輪的樹搜索后,研究者使用閾值控制策略來采樣step-level的偏序數據對,來提供細粒度的微調信號。整個采樣-微調過程將進行多輪,每一輪使用不同的訓練問題,以不斷強化模型的推理能力和安全對齊程度。

圖片

實驗選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用從PKU-SafeRLHF(安全問答)、JailbreakV(越獄數據)和UltraFeedback(通用數據)三個主流數據集中采樣的問題,對模型進行訓練。在StrongReject、WildChat等安全評估和GSM8k、AlpacaEval等通用測試上的實驗結果顯示,經過前兩階段的微調,模型在安全性能上相比訓練前獲得了顯著提升,同時更好地平衡了安全性能和通用性能。

圖片

 階段 3:測試時擴展

圖片

第三階段是訓練一個獎勵模型,并指導語言模型進行測試時搜索。用于訓練獎勵模型的數據同樣采自第二階段的蒙特卡洛搜索樹中,采樣step-level數據和全程軌跡數據,并通過Bradley-Terry模型的優化目標微調過程獎勵模型(process reward model)。后續基于該獎勵模型給出的信號進行Best-of-N搜索或束搜索,實現錦上添花的效果。在Llama-3.1-8B模型上,結合束搜索,在StrongReject上達到了0.94的分數,顯著超過多個主流商用模型,達到了與Claude-3.5相當的安全性能。

圖片

這意味著推理增強的技術手段也可以在安全對齊上取得可靠的效果。安全與推理的有機統一,可以推動模型真正理解、分析并應對風險,在保障安全的同時保留語言能力與實用性。

RealSafe-R1的安全對齊實踐

在STAIR的理論基礎上,研究團隊進一步推出了RealSafe-R1模型,針對開源的DeepSeek-R1模型進行安全對齊。通過構建15,000條安全感知的推理軌跡,RealSafe-R1在提升模型安全性的同時,保持了其強大的推理能力,避免了傳統方法中常見的性能損失問題[3]。

圖片

具體地,研究者通過提示DeepSeek-R1在推理過程中注意安全風險,加強安全護欄,提升模型推理過程的安全性。經過一輪的有監督微調,各尺寸推理模型的安全性都得到了大幅提升,同時在數學、代碼等推理任務上的表現不受影響,甚至在事實性方面也有一定改進。

圖片

隨著推理模型成為主流,已有不少工作研究推理模型的安全風險,也使其安全加固成為一個重要研究問題。STAIR框架提供了一條可行路徑來賦能模型的深度安全對齊,以及在安全對齊時更好地維持其通用能力。期待相關領域未來進一步的研究與突破。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-25 15:31:40

2024-10-29 21:01:44

2010-11-22 10:04:15

虛擬化

2021-09-15 09:39:56

公共云云遷移云端

2025-06-20 14:29:02

模型訓練大數據

2025-06-17 06:21:13

2025-07-23 10:07:31

2025-11-25 09:17:52

2021-07-14 10:33:41

云計算數據安全云安全

2025-03-11 08:37:42

2024-07-22 08:22:00

2021-10-14 09:00:00

云計算數字化轉型公有云

2025-09-29 07:42:00

2025-01-15 14:49:14

2025-07-17 09:28:09

2024-07-19 10:39:38

2025-04-28 00:04:00

傳統網絡安全

2025-07-25 08:45:00

AI模型測試

2009-09-21 17:09:38

Hibernate C
點贊
收藏

51CTO技術棧公眾號

亚洲国产精品日韩专区av有中文 | 另类小说综合欧美亚洲| 日韩精品在线观看一区| 日韩黄色影院| 成人a免费在线看| 亚洲精品tv久久久久久久久| 久久成人福利| 欧美成人激情免费网| 最近中文字幕在线| 中文字幕电影一区| 日韩精品伦理第一区| 奇米狠狠一区二区三区| 久久免费少妇高潮久久精品99| 日韩免费影院| 在线观看亚洲区| 国产黄大片在线观看画质优化| 欧美私模裸体表演在线观看| 一女被多男玩喷潮视频| 亚洲成人资源在线| 337p日本欧洲亚洲大胆鲁鲁| 日本 国产 欧美色综合| 黄网站免费在线观看| 久久久精品久久久久| 婷婷丁香六月天| 色视频成人在线观看免| 日韩av新片网| 国产一区二区三区综合| 成人淫片免费视频95视频| 亚洲精品国产一区二区三区四区在线| 日韩不卡一二区| 亚洲欧美日韩国产手机在线| 黑人玩欧美人三根一起进| 欧美多人爱爱视频网站| 日韩激情一区二区| 日本不卡免费播放| 午夜精品一区二区三区在线 | 秋霞影院一区| 成人信息集中地欧美| 日韩av一区二区在线影视| 美女日批免费视频| 欧美色图一区二区三区| 日韩精品免费视频一区二区三区 | 国产成人久久久精品一区| 欧美va亚洲va日韩∨a综合色| 男人插女人视频在线观看| 欧美亚洲日本一区| 亚洲精品午夜| 热99这里只有精品| 日韩不卡在线观看| 日韩av不卡一区二区| 久草视频视频在线播放| 国产精品一区二区三区在线播放| 不卡av免费在线观看| 国产乱码午夜在线视频| 国产不卡av在线免费观看| 精品视频在线观看免费观看| 日韩欧美一区二区免费| 污污网站在线观看| 欧美精品成人一区二区三区四区| jizz大全欧美jizzcom| 丁香六月综合激情| 欧美日韩在线一二三 | 国产精品资源在线| 欧美日韩一区综合| 国产精品538一区二区在线| 波多野结衣中文字幕久久| 亚洲人精品午夜在线观看| 久久丁香综合五月国产三级网站| 嫩草研究院在线观看| 亚洲综合自拍一区| 欧美久久一二三四区| 国产一区久久| 免费在线观看av片| 香蕉久久夜色| 亚洲情综合五月天| 久久久精品日韩欧美| 国产精品亚洲片在线播放| 精品久久久久久久免费人妻| 日韩一级黄色片| 国产精品一区二区三区乱码| www成人在线视频| 亚洲欧美精品在线观看| 中文字幕久久亚洲| 精品久久久国产精品999| 99精品视频精品精品视频| 嫩草香蕉在线91一二三区| 97人人澡人人爽| 亚洲va韩国va欧美va精品| 亚洲无线一线二线三线区别av| 白白色在线发布| 日韩三级电影| 亚洲色图日韩av| 亚洲欧美日韩在线播放| 青青草成人在线观看| 亚洲欧美成人影院| 精品免费国产一区二区| 久久久国产精品视频| 国产成人精品在线看| 国产一区二区三区91| 欧美著名女优| 国产精品成久久久久三级| 久久99久国产精品黄毛片色诱| 日韩成人影院| 日本免费视频在线观看| 91精品网站| аⅴ资源天堂资源库在线| 亚洲欧洲国产精品久久| 亚洲精品成人免费| 日本高清视频免费在线观看| 亚洲精品在线免费| 91cn在线观看| 亚洲free嫩bbb| 丁香五六月婷婷久久激情| 国产精品乱码一区二区三区软件 | 国产精品综合一区二区| 亚洲网一区二区三区| 国产黄在线看| 拔插拔插海外华人免费| 理论片在线不卡免费观看| 一区在线播放视频| 91精品国产91久久久久游泳池| 欧美日韩亚洲综合| 唐人社导航福利精品| 少妇高潮久久77777| 亚洲黄色免费| 欧美aaaaa级| 九七电影韩国女主播在线观看| 免费拍拍拍网站| 加勒比av一区二区| 男女啪啪网站视频| 欧美va在线播放| 日韩高清电影一区| av免费在线一区| 午夜视频久久久| 一级中文字幕一区二区| 精品免费av在线| 黄色av免费在线播放| 国产欧美日韩视频| 精品国产a毛片| 欧美日韩亚洲精品内裤| 一区二区三区中文在线| 中文字幕av不卡| 成人国产精品免费观看| 国产成人亚洲综合色影视| 久久久国产精品| 美女的尿口免费视频| 亚洲一区二区| 成人黄色小视频| 精品一区二区综合| 欧洲一区二区三区在线| 亚洲欧美日韩图片| 91九色露脸| 欧美一级黄色片视频| 最新真实国产在线视频| 亚洲成人偷拍| 久久国产精品一区二区| 亚洲午夜激情网站| 日韩中文字幕国产| 亚洲无玛一区| 精精国产xxxx视频在线动漫| 2024最新电影免费在线观看| 国产麻豆一区二区三区精品视频| 国产成人亚洲综合色影视| 夜夜夜精品看看| 超在线视频97| 天天干天天操天天干天天操| 国产在线一在线二| 色老板在线视频一区二区| 国产成人在线观看| 日韩激情视频在线| 一区二区不卡视频| 黄视频免费在线看| 久久精品国产成人一区二区三区| 亚洲精品第一国产综合精品| 日韩电影大全在线观看| 欧美日韩在线观看首页| caoporm超碰国产精品| 欧美精品一区二区三区在线播放| 国产一区红桃视频| 成人免费淫片95视频观看网站| 三上悠亚在线观看二区| 裸体免费网站| 日韩天堂在线| 精品一区二区在线播放| 欧美日韩一区二区在线观看 | 91九色视频在线观看| 在线免费观看av的网站| 一区二区三区欧洲区| 不卡在线观看av| 欧美日韩五码| 蜜桃av在线| 黄色免费在线网站| 成人精品久久| 日本不卡一区二区三区高清视频| 国产成人精品福利| 四虎国产精品免费观看| 最新精品在线| 麻豆免费看一区二区三区| 99久久免费国产| 蜜臀av一区二区在线观看|