国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%

人工智能 新聞
大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

如果面前有兩個AI助手:一個很聰明但經常不守規矩,另一個很聽話但不太聰明,你會怎么選?

最近,上海人工智能實驗室香港中文大學的研究團隊發布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通過一個全新的評測基準MathIF揭示:

大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

這項工作的靈感,源自實際使用推理模型(如o3)過程中的一個意外發現:相比許多經過強化推理訓練的大模型,GPT-4o在執行具體指令時反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實體驗,讓研究團隊開始系統性地研究推理能力與指令跟隨之間的關系。

這一研究也引來??知名博主的轉發:

圖片

研究揭示越擅長數學推理的模型反而越難完全遵守指令,同時分析了模型大小與服從性的非正相關現象,強調了推理能力與指令遵循之間的權衡。

MathIF:衡量推理模型“聽話程度”的新基準

MathIF基準專門針對數學推理任務,考察AI模型是否嚴格遵循用戶給出的指令要求。這些要求包括格式語言長度特定關鍵詞使用,均可通過程序自動驗證。

MathIF由來自不同難度的數學題目組成,涵蓋了從簡單的數學問題(GSM8K)到復雜的數學競賽題目(AIME)。每個題目都會附帶具體而明確的指令,比如:“答案必須以一句中文完整作答,不能有多余解釋。”

此外,MathIF還設計了單一指令、雙重指令和三重指令的組合情形,以測試模型在不同約束復雜程度下的表現。模型不僅需要正確解題,還要嚴格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個具體的指令標準,分別以硬準確率(HAcc)軟準確率(SAcc)衡量模型的服從程度:HAcc 表示是否全部指令都被滿足,而 SAcc 則反映每條指令的平均滿足比例。

圖片

△圖表1 MathIF 的指令類型

越聰明越不聽話?實驗揭示“聰明”與“聽話”的矛盾

研究團隊使用MathIF評測了23個當前主流的大模型。這些模型包括不同的參數規模和訓練方式,涵蓋從數十億到數百億參數的各種類型。

實驗結果令人意外:在數學推理能力表現越出色的模型,反而更難完全遵守用戶給定的指令要求。即使是表現最佳的模型Qwen3-14B,也只能成功遵守一半的指令提示。

此外,模型的大小與其遵守指令的能力并不呈正相關,甚至有時會出現負相關——即更大的模型并不一定更守規矩。一些較小的模型反而更善于嚴格執行用戶的指令。

指令遵循(instruction-following)與數學推理能力(mathematical reasoning)之間存在一種權衡關系(trade-off)。也就是說,當模型在推理能力上表現得更強時,它往往更容易忽略或違反用戶的具體指令。

圖片

△圖表2 23個大推理模型在MathIF上的表現

模型按服從性(HAcc + SAcc)表現從高到低排序。表中?符號表示該模型僅通過監督微調(SFT)訓練,未使用推理導向的強化學習方法。粗體+下劃線標記則分別代表各列指標中的前兩名與后兩名。

為什么聰明模型更“不聽話”?

研究團隊進一步分析了這個現象背后的原因:

原因一:推理導向的訓練模式

研究發現,旨在強化模型推理能力的訓練方式(如監督微調(SFT)和強化學習(RL)),雖然顯著提升了模型的“智力”,卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注于如何準確解題,而容易忽視諸如格式、字數等細節要求。正如圖3所示,無論是SFT還是RL,推理導向訓練雖然提升了解題表現,卻普遍導致模型在指令遵循能力(HAcc與SAcc)上的下降。

圖片

△圖表3 推理導向訓練策略的對比

其中Avg. Acc.表示在所有基準任務上的平均表現。綠色和紅色背景分別表示相較于基礎模型性能的提升和下降。

原因二:長推理鏈降低服從性

模型輸出的推理過程越長(“鏈式思考”越復雜),越容易“忘記”指令要求。長段的復雜推理過程,容易讓模型注意力分散,最后導致違背用戶指令。如下圖,將模型的推理結果按照長度進行分桶,推理長度越長,模型的指令遵循準確率越低。

圖片

△圖表4 不同推理鏈長度區間下的HAcc和SAcc表現

長度分桶編號越大表示生成的推理鏈越長。

研究團隊通過實驗進一步驗證了這一現象:當模型被引導生成更長的推理過程時,其遵循指令的準確率會明顯下降。

具體做法是,在模型推理結束前人為添加“wait”等提示,迫使其繼續延長思考過程,從而生成更長的推理鏈。如下圖所示,“思考越多”,模型對指令的執行反而越不準確。

圖片

△圖表5 模型指令跟隨能力的變化趨勢

此外,研究團隊還通過在訓練階段控制模型的推理長度,進一步觀察其指令跟隨能力的變化。

具體而言,他們在強化學習(RL)的 rollout 階段設置最大生成長度限制,超過該長度的回復將無法獲得獎勵,從而間接壓縮模型的推理鏈長度。

從下圖可以看出,限制推理長度有助于顯著提升模型的指令遵循能力(HAcc和SAcc)。當最大長度控制在1k以內時,模型在服從性方面的表現甚至超過了原始基線模型。

然而,這種提升也帶來了代價:模型的數學推理能力明顯下降,表現出“聽話”和“聰明”之間的權衡關系。

圖片

△圖表6 RL訓練中最大響應長度的影響

紅色區域表示相較于基礎模型(Original)性能下降,顏色越深表示下降幅度越大。

這些現象進一步印證了研究團隊的結論:偏向生成更長推理鏈的推理導向訓練,往往會在無意中削弱模型對指令的遵循能力,凸顯了推理能力與指令服從性之間長期存在的權衡關系

小技巧:讓模型更“聽話”的簡單方法

研究者也嘗試了一個簡單的方法改善模型的“聽話程度”:在模型推理結束后,輸出答案之前,再次重復一遍指令要求。

結果顯示,這種方法拉近了指令和回復的距離,確實有效提升了模型的指令遵守能力,但同時也稍微降低了模型回答問題的準確率。模型為了遵守規則,不得不犧牲一點自己的數學推理能力。

圖片

△圖表7 通過在推理后重復指令提升指令遵循能力。

當前主流的推理導向訓練方式,雖然顯著提升了模型的解題能力,卻不可避免地削弱了其對指令的遵循能力。AI的“聰明”與“聽話”之間,正面臨一場難以調和的矛盾。

未來,MathIF基準有望構建既能深入思考,又能嚴格守規矩的大模型。

論文地址:https://arxiv.org/pdf/2505.14810

Github地址:https://github.com/TingchenFu/MathIF

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-08-17 13:51:14

2025-06-27 08:40:00

模型推理AI

2009-04-15 20:56:40

Linux系統用戶

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-06-11 09:08:00

AI模型數據

2025-07-01 08:37:13

2025-10-15 08:44:37

AI模型數據

2024-07-29 07:04:00

大模型AI訓AI人工智能

2021-08-16 15:47:02

AI決策人工智能

2025-06-11 08:56:54

2025-06-11 14:39:50

AILLMMistral

2009-04-13 12:05:09

Linux服務器用戶

2024-07-25 12:35:33

2021-02-22 11:00:39

機器學習人工智能AI

2023-08-31 07:16:32

人工智能AI算力

2021-08-16 20:45:52

AI人工智能

2025-09-18 10:10:31

2025-05-30 02:00:00

獎勵模型RRMAI

2025-12-12 09:00:00

2025-03-11 08:37:42

點贊
收藏

51CTO技術棧公眾號

尤物精品国产第一福利三区| 亚洲成av人片在线| 亚洲激情在线视频| 91免费日韩| 亚洲黄色天堂| 久久久久免费精品国产| 男人添女人下部高潮视频在线观看| 欧美国产日本韩| 日本在线一区| 青草国产精品| 久久精品欧美视频| aa在线视频| 亚洲福利电影网| 337p粉嫩大胆噜噜噜鲁| 日韩成人伦理电影在线观看| 国产精品美女在线观看| 国产精品中文| 日韩精品免费在线视频| 高清日韩av电影| 日韩美女久久久| 欧美精品一区二区三区三州| 亚洲精华国产欧美| 国产精品视频一| 一区二区三区亚洲变态调教大结局| 欧美一级高清片在线观看| 久草在线新资源| 中文字幕不卡在线| 4444亚洲人成无码网在线观看| 伊人精品视频| 亚洲va久久久噜噜噜| 最新国产精品视频| 久久国内精品一国内精品| 涩涩视频网站在线观看| 91精品婷婷国产综合久久性色| 情趣网站视频在线观看| 日韩一区有码在线| 深夜黄色小视频| 国产视频在线观看一区二区三区| 日本免费成人网| 国产一区二区久久| ijzzijzzij亚洲大全| 狂野欧美一区| 精品一区二区三区免费毛片| 欧美日韩国产亚洲一区| 91久久国产精品| 亚洲欧美综合久久久| 国产精品自产拍在线观看| 99成人超碰| 亚洲bt欧美bt日本bt| 久久精品影视| 高清不卡日本v二区在线| 影音先锋久久精品| 欧美国产二区| 久久精品理论片| 亚洲乱码日产精品bd在线观看| 成人免费毛片嘿嘿连载视频| 欧美精品自拍视频| 国产午夜久久久久| 亚洲一级片免费| 亚洲女厕所小便bbb| 国产美女在线播放| 欧美撒尿777hd撒尿| 黄色美女视频在线观看| 永久免费精品影视网站| 成人看片黄a免费看视频| 日韩免费精品视频| 欧美一区二区三区久久精品茉莉花 | 天天综合91| 综合久久成人| 中文字幕欧美国产| 免费国产视频| 欧美在线观看一区二区| 在线观看电影av| 国产香蕉97碰碰久久人人| 国产美女亚洲精品7777| 51色欧美片视频在线观看| 青青草97国产精品麻豆| 久久福利电影| 成人自拍视频在线| 午夜爽爽爽男女免费观看影院| 午夜激情久久久| 午夜免费福利在线观看| 亚洲美女av网站| aiai久久| 97超级碰碰| 高清国产一区二区| 免费视频二区| 日韩亚洲欧美成人一区| 国产91亚洲精品久久久| 国产精品爽爽ⅴa在线观看| 久久久xxx| aa在线免费观看| 欧美性极品xxxx娇小| 亚洲h片在线看| 欧美激情综合亚洲一二区| 国产精品久久久久一区二区三区厕所| 日韩一区免费观看| 亚洲视频在线一区观看| 91在线中文| 欧洲成人免费aa| 久久99精品国产麻豆不卡| 国产bdsm| 亚洲精品电影在线| 欧洲亚洲视频| 曰韩不卡视频| 亚洲图片自拍偷拍| 成人美女av在线直播| 俄罗斯一级**毛片在线播放| 欧美高清在线播放| 99精品视频网| 自拍偷拍一区二区三区四区| 欧美一区二区美女| 欧美成人专区| 免费观看中文字幕| 欧美日韩国产精品一区二区不卡中文| 成人免费影院| 97人人模人人爽人人少妇| 成人免费毛片嘿嘿连载视频| 91激情在线| 日韩美女免费视频| 国产麻豆日韩欧美久久| 四虎精品成人免费网站| 久久精品国产一区二区三区| 亚洲欧美日韩国产一区| 成人午夜影院| 久久久精品欧美| 另类调教123区| 欧美日韩国产综合视频| 欧美国产日韩一区二区在线观看| 天堂av在线一区| 一卡二卡三卡亚洲| 欧美人在线观看| 国产精品一区二区三区网站| 欧洲日本在线| 成人在线观看视频网站| 欧美经典一区二区三区| 国产美女高潮在线观看| 99久久久久国产精品免费| 国产精品美女久久久久久2018 | 亚洲aaa级| 亚洲熟妇无码av在线播放| 欧美变态凌虐bdsm| 永久亚洲成a人片777777| 成人3d动漫网站| 欧美精品日韩www.p站| 久久99久久99精品免视看婷婷| 国产精品麻豆一区二区三区| 国产小视频免费在线网址| 国产精品2018| 国产精品久久久久国产精品日日 | 国产麻豆乱码精品一区二区三区 | 一级毛片久久久| 日本日本精品二区免费| 亚洲国产综合91精品麻豆| 亚洲国产合集| 一道本在线免费视频| 久久91超碰青草是什么| 91色在线porny| 91大神在线观看线路一区| 欧美 日韩 国产 在线观看| 日韩欧美电影一区| 日韩精品一二三| 三级福利片在线观看| 欧美日韩一区二区三| 91精品在线免费| 六月丁香婷婷久久| 亚洲精品**中文毛片| 91看片淫黄大片91| 最近2019好看的中文字幕免费| 国产97人人超碰caoprom| 综合久久久久久| 欧美aaaaa级| 免费一级网站| 亚洲伊人一本大道中文字幕| 在线影院国内精品| 国产情侣久久| 影音先锋在线视频| 亚洲精品天堂成人片av在线播放 | 四虎影视在线播放| 97se亚洲综合| 欧美精品少妇一区二区三区| 久久人人97超碰国产公开结果| 免费在线国产视频| 久久成人福利视频| 午夜精品一区二区三区av| 亚洲国产成人高清精品| 国产精品xvideos88| 日本成人不卡| 精品无码一区二区三区在线| 欧美亚洲日本黄色| 在线免费观看不卡av| 蜜桃91丨九色丨蝌蚪91桃色| 欧美性片在线观看| 91小视频网站| 91九色蝌蚪成人| 日韩电影大全免费观看2023年上| 99精品热视频| 午夜激情久久| 中文字幕这里只有精品| 天堂社区在线视频|