国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

NeurIPS 2025 | ARGRE框架實(shí)現(xiàn)高效LLM解毒:自回歸獎(jiǎng)勵(lì)引導(dǎo),安全對(duì)齊更快、更準(zhǔn)、更輕

人工智能 新聞
本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉(zhuǎn)變的新型測試時(shí)解毒方法。其核心突破在于通過將稀疏的毒性標(biāo)注轉(zhuǎn)化為密集訓(xùn)練信號(hào),高效學(xué)習(xí)出可提供穩(wěn)定、精準(zhǔn)指導(dǎo)的自回歸獎(jiǎng)勵(lì)模型,為后續(xù)表征編輯提供關(guān)鍵支撐。

作者為北京航空航天大學(xué)的肖宜松,劉艾杉,應(yīng)宗浩,劉祥龍,新加坡國立大學(xué)的梁思源,新加坡南洋理工大學(xué)的陶大程。本文已被 NeurIPS 2025 錄用。

LLM 已在智能創(chuàng)作、企業(yè)服務(wù)等領(lǐng)域廣泛應(yīng)用,但其內(nèi)容安全問題仍是落地過程中的關(guān)鍵挑戰(zhàn)。仇恨、歧視、威脅性言論等潛在風(fēng)險(xiǎn),使得 LLM 的安全部署與可信使用面臨困難,而現(xiàn)有的內(nèi)容過濾或?qū)R方案在效果、效率與成本之間往往難以兼顧。

近期,來自北航等機(jī)構(gòu)的研究提出了一種新的解決思路:自回歸獎(jiǎng)勵(lì)引導(dǎo)表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續(xù)變化路徑,實(shí)現(xiàn)了在測試階段進(jìn)行高效「解毒」。

  • 論文標(biāo)題:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
  • 論文地址:https://arxiv.org/abs/2510.01243

實(shí)驗(yàn)結(jié)果顯示,ARGRE 在降低模型毒性(62.21%)、縮短推理時(shí)間(47.58%)的同時(shí),幾乎不影響模型原有能力,為提升大模型內(nèi)容安全提供了新的方向。

在 8 個(gè)主流 LLM(參數(shù)覆蓋 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的測試顯示,其性能全面碾壓當(dāng)前所有基線方法,為 LLM 安全落地提供了「又快又準(zhǔn)又輕」的全新方法。

圖1 ARGRE 框架圖

研究背景

當(dāng)前大語言模型解毒技術(shù)雖已形成兩大主流路徑,但均存在難以突破的核心瓶頸,嚴(yán)重制約其在實(shí)際場景中的落地效果:

其一,以直接偏好優(yōu)化(DPO)為代表的訓(xùn)練時(shí)解毒方法,雖能通過偏好數(shù)據(jù)微調(diào)模型參數(shù)實(shí)現(xiàn)毒性抑制,卻高度依賴大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)與巨額算力支撐,在低數(shù)據(jù)、低算力的資源受限場景中難以適用;

其二,以表征編輯為代表的測試時(shí)解毒方法,無需修改模型參數(shù),在推理階段實(shí)施靜態(tài)或動(dòng)態(tài)干預(yù)。盡管具備靈活輕量的優(yōu)勢,但這類方法普遍未能充分探索大模型生成過程中毒性輸出與非毒性輸出之間的過渡空間,僅依賴稀疏的毒性標(biāo)注數(shù)據(jù)無法捕捉到精細(xì)修復(fù)信號(hào),導(dǎo)致干預(yù)精度不足,最終解毒效果遠(yuǎn)未達(dá)最優(yōu)。

ARGRE 針對(duì)上述瓶頸,提出在潛在表征空間中顯式建模毒性轉(zhuǎn)變軌跡,形成可學(xué)習(xí)的“導(dǎo)航系統(tǒng)”。該系統(tǒng)將稀疏標(biāo)注轉(zhuǎn)化為密集信號(hào),指導(dǎo)自回歸獎(jiǎng)勵(lì)模型學(xué)習(xí)更穩(wěn)定、精確的干預(yù)策略,從而在推理階段高效降低毒性輸出。

方法概述

ARGRE 的總體流程包括三部分:毒性軌跡探索、獎(jiǎng)勵(lì)模型學(xué)習(xí)與自適應(yīng)表征編輯。其核心思想是通過表征插值刻畫毒性連續(xù)變化,并以自回歸獎(jiǎng)勵(lì)信號(hào)引導(dǎo)模型在推理階段進(jìn)行動(dòng)態(tài)修正。

毒性軌跡探索

依據(jù)線性表征假設(shè),毒性等語義概念在大語言模型的表征空間中以線性方向編碼。

給定提示,毒性延續(xù)和良性延續(xù),提取二者最后一個(gè)令牌上的表征差異,再通過 PCA 提取主導(dǎo)的無毒方向為探索高維語義表征空間中無毒與有毒配對(duì)轉(zhuǎn)換提供了清晰路徑。沿著在良性延續(xù)和毒性延續(xù)表征上進(jìn)行插值,生成細(xì)粒度的毒性轉(zhuǎn)換軌跡,并進(jìn)一步組合成成對(duì)偏好數(shù)據(jù)集

這些軌跡能將原本稀疏的毒性注釋,轉(zhuǎn)化為連續(xù)的細(xì)粒度毒性表征變化信號(hào),形成密集的監(jiān)督信息,最終讓后續(xù)學(xué)習(xí)的自回歸獎(jiǎng)勵(lì)模型具備更穩(wěn)定、準(zhǔn)確的編輯指導(dǎo)能力。

自回歸獎(jiǎng)勵(lì)模型

軌跡級(jí)獎(jiǎng)勵(lì)模型基于完整軌跡訓(xùn)練,僅在結(jié)尾處分配最終獎(jiǎng)勵(lì),導(dǎo)致生成過程中編輯信號(hào)不夠精準(zhǔn)。

相比之下,ARGRE在令牌表征層面構(gòu)建輕量的自回歸獎(jiǎng)勵(lì)模型,對(duì)整體獎(jiǎng)勵(lì)進(jìn)行分解,為每個(gè)令牌表征提供標(biāo)量化獎(jiǎng)勵(lì)

自回歸獎(jiǎng)勵(lì)模型由應(yīng)用在最終解碼層之上的感知機(jī)實(shí)現(xiàn),旨在為良性響應(yīng)分配比毒性響應(yīng)更高的獎(jiǎng)勵(lì)信號(hào),其訓(xùn)練目標(biāo)如下所示:

自適應(yīng)表征編輯

依托自回歸獎(jiǎng)勵(lì)模型,推理階段通過引導(dǎo)每個(gè)令牌表征最大化預(yù)期獎(jiǎng)勵(lì),實(shí)現(xiàn)大語言模型輸出毒性的降低。

具體分為兩步:首先沿預(yù)設(shè)無毒方向調(diào)整表征,利用當(dāng)前表征與平均無毒獎(jiǎng)勵(lì)的預(yù)期差距,將其快速導(dǎo)向非毒性安全區(qū)域;隨后通過輕量級(jí)梯度上升進(jìn)一步優(yōu)化表征,以提升獎(jiǎng)勵(lì)分?jǐn)?shù)、強(qiáng)化解毒效果。

相較于現(xiàn)有方法依賴啟發(fā)式靜態(tài)干預(yù)或繁瑣的梯度動(dòng)態(tài)干預(yù),該策略在效果與效率上優(yōu)勢顯著:定向引導(dǎo)可降低表征陷入局部最優(yōu)的風(fēng)險(xiǎn),而有限的梯度迭代則確保自回歸生成的額外開銷微乎其微。

實(shí)驗(yàn)評(píng)估

在實(shí)驗(yàn)評(píng)估環(huán)節(jié),為驗(yàn)證解毒效果,研究團(tuán)隊(duì)以 RealToxicityPrompts 的挑戰(zhàn)子集為測試基準(zhǔn)。

通過向大語言模型輸入該子集的提示以觸發(fā)潛在毒性輸出,再借助 Detoxify 工具對(duì)生成結(jié)果進(jìn)行毒性評(píng)分(分?jǐn)?shù)越高毒性越強(qiáng)),同時(shí)以生成文本的困惑度衡量語言流暢性保留情況。

評(píng)估覆蓋 8 個(gè)主流 LLM,參數(shù)規(guī)模跨度從 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。

在有效性評(píng)估中,ARGRE 展現(xiàn)出卓越的解毒性能:不僅顯著超越各類基線方法,更在 8 個(gè)主流大語言模型上實(shí)現(xiàn)了高效毒性抑制,相比原始模型毒性降低率高達(dá) 62.21%。即便僅保留初始定向引導(dǎo)步驟、去除迭代優(yōu)化的簡化版本,也能實(shí)現(xiàn) 59.63% 的毒性降低。

同時(shí),ARGRE 在不同參數(shù)規(guī)模模型中均表現(xiàn)穩(wěn)定,從 355M 到 30B 參數(shù)的大模型均能有效適配,且僅造成最小程度的流暢性損耗,成功平衡了毒性抑制效果與模型核心生成能力。

在效率表現(xiàn)上,ARGRE 同樣展現(xiàn)出顯著優(yōu)勢。以 LLaMA-30B 為測試對(duì)象,在生成 128 個(gè) token 的任務(wù)中,ARGRE 能有效降低計(jì)算開銷,相比當(dāng)前表現(xiàn)最佳的基線方法,推理時(shí)間減少 47.58%。

ARGRE 的效率優(yōu)勢源于兩點(diǎn)核心設(shè)計(jì):一方面,其自回歸獎(jiǎng)勵(lì)模型采用輕量兩層 MLP 結(jié)構(gòu),無需額外復(fù)雜模塊,避免引入多余計(jì)算負(fù)擔(dān);另一方面,自適應(yīng)兩步編輯中的梯度優(yōu)化步驟僅需少量迭代,進(jìn)一步控制了推理階段的開銷。

而實(shí)現(xiàn)可比解毒表現(xiàn)的簡化版本,推理速度與原始模型近乎持平,表明定向引導(dǎo)步驟的開銷極小。

理想的大語言模型解毒方法,需在降低毒性的同時(shí)完整保留模型現(xiàn)有核心能力,ARGRE 較好的滿足了這一目標(biāo)。在語言性能保留層面,以 WikiText-2 數(shù)據(jù)集的困惑度為衡量指標(biāo),ARGRE 僅導(dǎo)致困惑度平均上升 0.52,這一微小增幅意味著其對(duì)語言生成能力的影響極低,且該增幅在所有測試時(shí)基線方法中處于最低水平。

在零樣本任務(wù)能力層面,ARGRE 能夠穩(wěn)定保留原始模型的準(zhǔn)確率,未出現(xiàn)能力退化;而其他測試時(shí)基線方法在這一維度均表現(xiàn)出不同程度的性能下降。

總結(jié)

本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉(zhuǎn)變的新型測試時(shí)解毒方法。其核心突破在于通過將稀疏的毒性標(biāo)注轉(zhuǎn)化為密集訓(xùn)練信號(hào),高效學(xué)習(xí)出可提供穩(wěn)定、精準(zhǔn)指導(dǎo)的自回歸獎(jiǎng)勵(lì)模型,為后續(xù)表征編輯提供關(guān)鍵支撐。

在覆蓋 355M 至 30B 參數(shù)的 8 種主流 LLM 上的廣泛評(píng)估顯示,ARGRE 不僅在解毒性能上全面優(yōu)于基線方法,推理效率也顯著高于其他主流基線,更能以近乎零損耗的方式保留模型原有的核心能力。

ARGRE 當(dāng)前存在兩點(diǎn)局限:其一,作為白盒方法,它需獲取 LLM 的內(nèi)部表征才能實(shí)施干預(yù),限制了其在無法接觸模型內(nèi)部信息場景中的應(yīng)用范圍;其二,當(dāng)前對(duì)毒性轉(zhuǎn)變的探索僅圍繞第一主成分方向展開,未來工作將嘗試探索更多樣化的方向,以便更好地捕捉毒性轉(zhuǎn)變的細(xì)微特征。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-03 10:04:47

擴(kuò)散模型數(shù)據(jù)分布

2015-09-08 10:48:55

UU安全

2025-05-08 08:18:41

2025-11-25 09:17:52

2025-10-31 08:49:00

AI圖像生成模型

2013-11-26 17:02:00

2024-11-18 11:00:00

模型安全

2024-10-15 10:47:12

2019-12-14 16:41:40

5G運(yùn)營商網(wǎng)絡(luò)

2025-10-16 08:57:00

AI模型訓(xùn)練

2015-07-21 17:18:19

用友iUAP

2011-06-15 09:53:05

思杰虛擬化

2011-08-22 23:21:09

筆記本評(píng)測

2025-07-30 08:40:00

AI編程模型

2023-11-27 09:00:00

GPTQ大型語言模型

2025-08-01 09:03:00

2024-12-25 15:31:40

2024-06-28 10:16:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

五月婷婷激情综合网| 国产精品自拍视频| 国产在线观看免费网站| 粉嫩一区二区三区在线看| 91精品国产综合久久久久久蜜臀| 日本а中文在线天堂| 欧美日韩视频在线一区二区| 亚洲日韩成人| 精品亚洲一区二区三区在线观看| 国产精品高清乱码在线观看 | 一本久道久久综合狠狠爱| 国产精品久久久av| 国产精品宾馆| 久久久久久久久久久av| 国产一区二区视频在线看| 久久精品成人一区二区三区| 69堂精品视频在线播放| 国产亚洲欧美日韩精品| 欧美中文字幕精在线不卡| 精品伊人久久97| 婷婷六月国产精品久久不卡| 中文字幕亚洲一区在线观看| 亚洲精品大片| 欧美国产在线电影| 97久久综合区小说区图片区| 欧美丰满片xxx777| 久久亚洲精精品中文字幕| 456国产精品| 日韩欧美高清在线播放| 亚洲综合色av| 久久久国产亚洲精品| 自拍亚洲欧美老师丝袜| 成a人片国产精品| 成人免费在线观看视频网站| 亚洲精品视频自拍| 国产视频精品久久| 亚洲成人精品视频| 国产精品99| 2019中文在线观看| 一区二区日韩欧美| 亚洲高清123| 成人妖精视频yjsp地址| 嫩草av久久伊人妇女超级a| 亚洲欧美国产三级| 在线观看国产原创自拍视频| 精品一区二区亚洲| 亚洲国产视频二区| 91久久精品美女高潮| 另类av一区二区| 韩国日本在线视频| 日韩欧美999| 神马久久午夜| 午夜精品理论片| 亚洲经典在线看| 日韩成人手机在线| 亚洲四区在线观看| www久久日com| 欧美成人免费一级人片100| 秋霞欧美视频| 西游记1978| 亚洲欧美视频在线观看视频| 在线中文字幕视频观看| 欧美大片免费观看在线观看网站推荐| 激情五月色综合国产精品| 日韩成人av电影在线| 国产色产综合产在线视频| аⅴ资源新版在线天堂| 不卡毛片在线看| 亚洲精品在线二区| 午夜免费精品视频| 欧美一区二区三区视频| 国产精品丝袜在线播放| 久久综合九九| 中文字幕av免费专区久久| 在线电影福利片| 国产va免费精品高清在线观看| 日韩国产在线一| 天堂视频福利| 亚洲免费福利视频| 欧美日本久久| 精品国产免费av| 欧美日韩中字一区| 国产区精品视频在线观看豆花| 免费不卡亚洲欧美| 亚洲一级在线观看| 992tv国产精品成人影院| 国内成+人亚洲| 国产精品免费网站在线观看| 91九色国产在线播放| 国产免费观看久久黄| 国产成人精品一区二区三区四区| 国产一区二区三区不卡在线| 欧美精品成人在线| 成人美女在线观看| 黄色大片在线| 91视频国产高清| 国产精品家庭影院| 懂色av色香蕉一区二区蜜桃| 在线视频亚洲自拍| 欧美精品在线观看播放| 清纯唯美日韩| 亚洲欧美日韩一级| 国产亚洲精品激情久久| 亚洲综合欧美| 日本福利在线观看| 日本乱人伦a精品| 久久先锋资源网| 国产传媒在线观看| 97久久夜色精品国产九色 | 69堂精品视频在线播放| 久久精品丝袜高跟鞋| 亚洲成年人网站在线观看| 精品国模一区二区三区| 欧美一区二区三区成人久久片| 精品久久久久久中文字幕大豆网| 国产毛片精品| 大陆极品少妇内射aaaaa| 亚洲欧美在线免费| 寂寞少妇一区二区三区| 免费毛片在线看片免费丝瓜视频| 国产高清精品一区二区| 欧美性猛xxx| 亚洲老妇激情| 狠狠v欧美ⅴ日韩v亚洲v大胸| 国产精品丝袜高跟| 亚洲妇熟xx妇色黄| 欧美日中文字幕| 性综艺节目av在线播放| 日本亚洲欧洲色α| 亚洲第一久久影院| 亚州av乱码久久精品蜜桃| 欧美新色视频| 成人欧美一区二区三区视频| 在线免费亚洲电影| 一区在线视频观看| 超碰在线观看免费| 午夜视频久久久| 亚洲天堂日韩电影| 成人午夜免费电影| 国产精品久久免费视频| 亚洲欧美自偷自拍另类| 久久久久久av| 亚洲精品视频在线| 无码一区二区三区视频| 国产在线资源| 欧美日韩一区二区三区在线观看免| 538在线一区二区精品国产| 日本视频免费一区| 成人在线免费| 福利在线一区二区三区| 国产精品久久一区主播| 欧美亚洲尤物久久| 久久精品国产第一区二区三区| av有声小说一区二区三区| 黄色片在线免费| 国产精品综合久久久| 欧美亚洲国产一区二区三区| 蜜臀a∨国产成人精品| 高清亚洲高清| 国产九一视频| 精品无人区一区二区三区竹菊| 亚洲第一黄色网| 久久网站最新地址| av中文一区| 黄色网页在线免费看| 男人天堂a在线| 国产精品成人观看视频国产奇米| 欧美日韩一级大片网址| 国产98色在线|日韩| 婷婷成人影院| 青青草成人网| 中文字幕视频在线| 清纯唯美亚洲色图| 国产成人精品aa毛片| 小说区图片区亚洲| 黄色av免费| 国产欧美日韩在线播放| 亚洲欧美日韩国产成人| 国产精品沙发午睡系列990531| 88国产精品视频一区二区三区| 免费网站在线观看人| 中文字幕2019第三页| 精品日本一区二区| 久久99久久99精品免观看粉嫩| 一区二区三区美女| 久久精品国产一区二区三区免费看| 青青国产精品| 人成在线免费视频| 久久这里只有精品23| 成人日韩在线电影| 在线观看视频亚洲| 欧美日韩国产在线| 国产精品一区二区在线观看不卡 | 99久久精品国产毛片| 欧美亚洲高清| 成人黄色免费短视频| 在线观看高清av| 国产男女免费视频| 国产一区精品在线| 26uuu另类亚洲欧美日本一|