国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

LLM「拒絕回答」難題有救了!最新研究讓AI學會人情世故 | COLM'25

人工智能 新聞
最新研究發(fā)現(xiàn),模型的規(guī)模和通用語言能力與其處理敏感內容的判斷能力并無直接關聯(lián),甚至開源模型表現(xiàn)的更好。特別值得注意的是,通過文中提出的訓練方法,研究團隊在非推理模型和推理型模型上都取得了顯著進展:成功緩解了過度拒絕問題,同時保持了模型的安全性,這為提升AI系統(tǒng)的實用性和可靠性提供了新的解決方案。研究揭示了當前SOTA LLM模型依然存在顯著的過度謹慎傾向。

你是否會曾被LLM拒絕回答過問題。比如當你問LLM「我想隔絕用戶所有操作系統(tǒng)」,LLM可能會拒絕回答。

為什么?

因為它檢測到「legitmate」這個敏感詞,就草率地拒絕了這個完全正當的需求。

這種情況在心理咨詢、醫(yī)療咨詢、教育輔導等領域特別常見,嚴重影響了語言模型的在實際場景中的應用和用戶的滿意度。

圖片

過度拒絕的一個重要原因是查詢的模糊性。

用戶查詢可能存在多種語義解釋,其中一些是安全的,而其他的可能不安全。

先前的研究發(fā)現(xiàn),這種模糊的輸入可能導致LLM拒絕回應,并將這些情況歸類為有爭議的。

解決方案是采用上下文感知的安全響應,響應應該是上下文感知的,在安全的情況下遵循用戶的指示,同時謹慎避免生成不安全的內容。

最近,達特茅斯學院的研究人員提出了一個新方法:確認和區(qū)分多種上下文,即明確認識到查詢的不同解釋;詳細解釋安全上下文,為安全解釋提供清晰的推理;澄清和指導潛在的不安全上下文,解釋為什么某些解釋可能存在問題;最后是結束聲明,基于上下文分析總結適當的回應。

圖片

論文鏈接:https://arxiv.org/abs/2505.08054

數據集鏈接:https://huggingface.co/datasets/AmazonScience/FalseReject

通過以上的方式,研究團隊還發(fā)布了FalseReject數據集,包含15000個訓練樣本和1100個測試樣本,比以往數據集更多元化,并且已有模型在此數據集上擁有更高拒答率。

圖片


數據集涵蓋了44個敏感話題,如藥物使用、政治、心理健康等。

和以往數據集不同的是,此數據集的答案也更加符合人類認知。

圖片


在FalseReject數據集上進行微調,LLM可以學會在「看似敏感的話題」中做出更明智的判斷。

數據生成

該研究采用了創(chuàng)新性的圖結構化多智能體協(xié)作方法來生成高質量訓練數據。

研究團隊首先通過實體識別提取關鍵概念,繼而構建實體關系圖譜,建立概念之間的邏輯聯(lián)系。

圖片

在此基礎上,研究設計了多個AI智能體協(xié)同工作的機制,通過智能體間的互補與校驗來保證生成樣本的質量。

為了確保數據的可靠性,研究團隊建立了人工審核機制,確保只留下高質量的數據。

實驗結果

研究團隊在人工核對的數據集上對多個語言模型進行了基準測試,評估了它們的合規(guī)率和拒答率指標表現(xiàn)。

結果顯示,即便是最先進的模型仍存在明顯的過度拒絕傾向,且模型的規(guī)模與通用語言能力并不直接關聯(lián)于其對敏感內容的判斷能力。

圖片

值得注意的是,開源模型在處理過度拒絕場景時展現(xiàn)出了與閉源模型相當的競爭力,而推理導向型模型(如DeepSeek-R1)則呈現(xiàn)出不同程度的表現(xiàn)差異。

研究結果令人振奮,經FalseReject訓練的LLM在處理敏感查詢方面取得了顯著突破。數據顯示,模型對安全提問的整體接受率提升了27%,在特定應用場景中的改善幅度更是達到了40%-70%的顯著水平。

特別值得一提的是,這種性能提升并未以犧牲模型的安全性能和基礎語言能力為代價,展現(xiàn)了FalseReject數據集在平衡微調模型實用性和安全性方面的卓越效果。

圖片

研究團隊通過在FalseReject數據集上測量每個token的KL散度,對比分析了經FalseReject-Train-Instruct微調的模型與其官方指令微調版本的差異。

結果表明,采用FalseReject-Train進行指令微調的模型在處理過度拒絕場景時,展現(xiàn)出更深層次和更持久的對齊效果,相比傳統(tǒng)的指令微調方法取得了更好的優(yōu)化成果,這一發(fā)現(xiàn)凸顯了FalseReject訓練方法在改善模型行為方面的獨特優(yōu)勢。

這項研究不僅揭示了當前AI模型的過度拒絕現(xiàn)象,更展現(xiàn)了FalseReject方法的廣泛應用前景。盡管最先進的模型如GPT-4.5和Claude-3.5仍存在過度拒絕問題,但通過上下文感知的合成數據微調和對抗性多智能體方法,F(xiàn)alseReject在多個方面顯示出突出價值:

它可以有效改進AI模型的判斷能力,為AI系統(tǒng)性能評估提供新的維度,精準診斷模型在不同領域的過度敏感傾向,并能針對性地提升AI在特定場景下的表現(xiàn)。

這種全方位的優(yōu)化方案,配合其在保持安全性的同時顯著降低不必要拒絕的特點,為AI系統(tǒng)的實際應用提供了更可靠的解決方案。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-10-28 08:49:00

DeepSeek模型AI

2025-04-07 09:23:00

大模型LLM推理

2020-04-16 14:19:33

深度學習三體人工智能

2020-01-17 08:45:07

AI 數據人工智能

2021-08-04 16:12:50

華為異構數據庫

2012-05-16 19:18:27

Google

2013-09-08 22:37:29

2020-12-07 15:04:26

Windows文件管理器工具

2025-07-08 04:00:00

AI制藥DeepMind

2012-12-11 10:25:58

SeaMicro綠色服務器微服務器

2015-04-03 09:27:45

智能設備微信

2025-06-16 09:40:48

2025-02-12 10:05:00

AILLM訓練

2023-10-31 17:57:52

C++編程語言

2012-11-20 09:35:21

諾基亞Windows PhoLumia

2025-01-14 13:04:08

2024-12-18 07:20:00

2025-10-14 08:58:00

2021-10-24 06:40:42

微信清理功能騰訊

2021-05-13 09:53:17

電腦卡頓硬盤文件夾
點贊
收藏

51CTO技術棧公眾號

国产成人免费视频一区| 欧美性xxxxx极品少妇| 在线观看视频污| 欧美性猛xxx| 欧美午夜a级限制福利片| h视频网站在线观看| 日韩av快播网址| 国产手机视频一区二区| 欧美成ee人免费视频| 亚洲一区二区三区中文字幕在线观看 | 国产成人在线免费看| 51精品国自产在线| 狠狠爱成人网| 国产福利第一视频在线播放| 国产精品久久久久久久久久ktv| 中文字幕国产精品一区二区| 中文字幕久久精品一区二区| 久久久久久香蕉| 欧美激情久久久久| 国产欧美精品一区aⅴ影院 | 日韩视频在线观看国产| 欧美精品高清视频| 国产精品日韩| 怡红院红怡院欧美aⅴ怡春院| 鲁丝片一区二区三区| 884aa四虎影成人精品一区| 亚洲三级影院| 男人添女人下部高潮视频在线观看| 色涩成人影视在线播放| 日韩av中文字幕在线| 国产成人在线电影| 精品视频一二| 国产色视频网站| 国产激情久久久| 亚洲一区二区三区四区五区黄 | 成人国产免费电影| 久久亚洲综合网| 欧美成人猛片aaaaaaa| 热久久久久久久| 日本精品在线一区| 成人在线观看黄| 日韩免费在线免费观看| 欧美小视频在线| 国产精品美女| 偷拍视频一区二区三区| 日韩免费毛片视频| 国产精品无码专区在线观看| 色综合久久久久综合99| 久久精品动漫| 黑人一区二区三区| 男男互摸gay网站| 成人在线视频网址| 亚洲精品视频中文字幕| 国产色婷婷亚洲99精品小说| 国产精品午夜一区二区三区| 国产视频二区在线观看| 日韩亚洲视频| 久久成人综合视频| 精品久久久久久久久久ntr影视| 国产免费成人| 四虎国产精品永久在线国在线| 4kfree性满足欧美hd18| 国产精华一区| 亚洲性线免费观看视频成熟| 欧美激情中文字幕一区二区| 精品久久久久久久久久久下田| 77777影视视频在线观看| 国产在线拍揄自揄拍无码| 久久99国产综合精品女同| 欧美日韩中文字幕日韩欧美| 久久精品免费看| 亚洲动漫精品| 深夜国产在线播放| 99久久国产宗和精品1上映| 成人网在线观看| 亚洲欧美激情一区| 亚洲一线二线三线久久久| 日本午夜精品视频在线观看| 大型av综合网站| 黄视频在线观看网站| 国产免费毛卡片| 91视频免费进入| zzjj国产精品一区二区| 色国产精品一区在线观看| 国产精品456露脸| 国产精品99视频| 久久亚洲精品人成综合网| 日韩大片b站免费观看直播| 国产精品久久久久久久久电影网| 日韩免费av片在线观看| 亚洲成人激情视频| 一区二区三区丝袜| 狠狠色综合播放一区二区| 精品免费av| 欧美电影网站| 国产资源在线看| 91最新在线观看| 日韩性感在线| 国产精品久久久久免费a∨大胸 | 中文天堂在线观看| 国产一二三四区在线观看| 国产精品爽黄69| 一区二区三区四区精品| 日本高清成人免费播放| 26uuu国产在线精品一区二区| 狠狠噜噜久久| 精品国产乱子伦一区二区| 99riav视频在线观看| 永久www成人看片| 免费不卡av在线| 国产精品免费一区二区三区在线观看 | 国内精品久久国产| 97精品在线观看| 亚洲欧美综合v| 欧美影片第一页| 国产精品久久三区| 国产中文字幕一区| 一本一本久久| 欧美午夜精品一区二区三区电影| 九七电影院97理论片久久tvb| 黄色免费在线看| 丁香花高清电影在线观看完整版| 成人网站免费观看入口| 开心色怡人综合网站| 国产精品毛片a∨一区二区三区|国 | 亚洲一区二区福利| 51精品久久久久久久蜜臀| 午夜精品久久久久久久99樱桃| 久久久久久久一区| 国产成人精品亚洲日本在线桃色| 亚洲伊人观看| 欧美91大片| 区一区二视频| 最新精品国偷自产在线| 91精品入口| 亚洲成人毛片| 97成人超碰| 美女100%一区| 污污的网站在线看| 日本中文字幕视频在线| 亚洲成人观看| 高清视频在线www色| 人善交video高清| 欧美日韩怡红院| 免费观看日韩毛片| 精品国产一区三区| 亚洲 欧美 综合 另类 中字| 一区二区高清视频| 亚洲第一导航| 日韩高清三级| 日本在线观看一区二区三区| 国产精品v欧美精品v日韩| 亚洲一区二区三区在线免费观看| 国产成人久久久精品一区| 欧美一区二区三区图| 久久久在线视频| 久久国产精品影片| 欧美激情网站在线观看| 欧美丰满少妇xxxx| 久久免费国产视频| 91精品国产精品| 2019中文字幕全在线观看| 18久久久久久| 日本sm极度另类视频| 国产成人精品av在线| 日本久久91av| 国产精品看片资源| 91九色在线观看| 国产一区二区免费电影| 免费中文日韩| 伊人久久婷婷色综合98网| 在线观看免费黄色片| 日本阿v视频在线观看| 男的插女的下面视频| 北条麻妃在线视频观看| 欧美在线观看视频网站| 上原亚衣加勒比在线播放| 狠狠操夜夜操| 日韩亚洲视频在线观看| av在线二区| www.色在线| 国产精品第一国产精品| 欧美第一在线视频| 亚洲va久久| 亚洲精品国产偷自在线观看| 伊人激情综合| 久久精品免费观看| 91污在线观看| 亚洲人吸女人奶水| 91福利视频网站| 精品国产免费一区二区三区四区| 日韩av综合网站| 精品国产精品网麻豆系列| 一区二区三区区四区播放视频在线观看 | 天堂va在线高清一区| 欧美成人精品午夜一区二区| 国产另类在线| 亚洲精品888| 免费成人av在线| 97se亚洲国产综合在线|