国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

CoT推理大潰敗?哈佛華人揭秘:LLM一思考,立刻就「失智」

人工智能 新聞
DeepSeek-R1引爆了LLM推理革命,人們幾乎形成了共識:推理能力越強,LLM越好。但多位華人參與的研究揭示:思維鏈CoT分散模型「注意力」,可能是性能崩塌的導火索。

DeepSeek-R1火了,推理模型火了,思維鏈(Chain-of-Thought,CoT)火了!

模型很聰明,問題是:它還聽你的話嗎?思維鏈很好,但代價呢?

當大家以為大語言模型越「會思考」越靠譜時,來自哈佛大學、亞馬遜和紐約大學的最新研究, 可謂當頭棒喝:

思維鏈(Chain-of-Thought)并不總是錦上添花,

有時候,它會讓大模型越想越錯、越幫越忙!

圖片

論文鏈接:https://arxiv.org/abs/2505.11423

他們直截了當地指出:

在需要遵守指令或格式的任務中,使用CoT推理,模型遵守指令的準確率會下降!

例如,Meta-Llama-3-8B在IFEval基準中:

  • 不使用推理時準確率:75.2%
  • 啟用CoT后:直接跌至59.0%

而且這不是個例,在多個模型、多個任務上都驗證了這個現象。

不是模型不聰明,是它「想太多」了。

在表1中,研究人員展示了具體的測評結果。

其中綠色紅色分別標識原始模式CoT模式的性能。

各改進方法列同時報告絕對準確率及相對于CoT模式的變化(↑表示提升,↓表示下降),最優改進方案用加粗字體標出。

圖片

表1:模型在IFEval和ComplexBench上的指令遵循性能表現

這不是LLM的滑鐵盧,這是推理的自爆現場。

這個新發現顛覆了常識:推理越多,表現越差!

圖片

表2:推理增強模型與基礎模型性能對比

表2中綠色標注每對模型中性能較優模型紅色標注較差模型

對LLM而言,推理到底幫了哪些忙,又添了哪些亂?

四大模式,暗藏玄機

對IFEval數據集中的全部541個樣本,以及ComplexBench中的1000多個樣本,研究人員進行了人工分析。

案例分析顯示,雖然存在個體差異,但成功與失敗案例主要呈現四大重復模式,具體總結如下:

推理對指令遵循的好處:

  • 格式和結構遵守:推理提高了對結構約束的遵循程度,例如生成有效的JSON、用雙引號包裹輸出或者遵循markdown語法。
  • 詞匯和關鍵詞精確性:推理增強了對詞匯要求的遵守,包括插入稀有字符(如字母q使用六次)、省略最終標點符號或使用恰好15個大寫單詞。

推理對指令遵循的害處:

  • 過度關注高層次內容而忽略簡單約束:當存在多個約束時,推理通常會強調內容規劃而忽視較為簡單的機械約束。
    常見問題包括超出字數限制、未能準確重復提示、在僅限小寫字母的任務中使用大寫字母,或附加不必要的內容。
  • 自作聰明,畫蛇添足,擅自加戲:推理經常插入冗余或出于好意添加的內容——比如解釋、翻譯或強調——這些都可能破壞約束條件。
    典型的行為包括:在「僅外語」輸出中插入英文文本,在「無逗號」任務中包含逗號,向僅需引用的回答后附加評論,或超出大寫單詞數量的限制。

總結一句:你要它聽話,它偏偏表演。

真相:CoT分散模型「注意力」

在許多失敗案例中,研究者觀察到模型忽視了某些約束,原因可能是過度強調內容規劃,或引入了無關的信息。

研究者引入了一個新指標:「約束注意力」,來衡量模型有沒有關注任務中的關鍵限制條件

結果很扎心:

  • DeepSeek-R1-Distill:使用CoT時注意力下降0.161
  • Qwen2.5-1.5B-Instruct:下降0.090

CoT推理就像在耳邊說「要不你再想想?」

模型真的「想多了」,但忘了你原本說了什么。

注意力潰散

在大語言模型中,「注意力機制」,用來決定模型在每一步生成中關注哪些輸入信息最重要

理想情況下:

如果你讓模型執行「按要求格式輸出」「只輸出選項A或B」,那它的注意力就應該聚焦在指令里的關鍵約束詞上,比如「必須輸出A或B」「不得添加解釋」。

然而,CoT推理的引入卻改變了這種聚焦機制:

當你讓模型「一步步來思考」(即CoT)時,它反而會被自己的推理內容吸引,逐漸忽略最開始的指令約束。

這就好比:

模型本該「盯著規則干活」, 但你讓它「先思考思路」,它反而被自己的「內心獨白」帶偏了。

你給它一張待辦清單,它卻跑去寫日記,寫著寫著忘了要辦啥。

圖片

實證支持:「約束注意力」下降

論文中引入了一個衡量指標:約束注意力得分。

具體來說,對于每條指令,首先使用GPT-4o自動提取出與各個約束對應的子字符串,并將這些子字符串映射為提示中的對應token索引。

在生成過程中,計算模型對這些約束相關token的注意力得分,分別針對性分析了推理過程和最終回答兩個階段,計算第t步的層平均約束注意力。

每個模型在每條指令上會運行兩次:

1. 基礎運行(Base run):直接從指令生成回答(Instruction→Answer);

2. 推理運行(Reasoning run,即CoT):從指令生成思考過程再生成回答(Instruction→Think→Answer)。

研究人員將注意力下降量定義為基線模式與思維鏈模式的平均約束注意力差值,用來量化模型在執行任務時,有多少注意力落在了那些「必須遵守」的關鍵詞或結構限制上。

在IFEval和ComplexBench基準上,在圖1中可視化了某開源模型生成響應時的約束注意力軌跡。

通過對數百個樣本的分析,研究者觀察到以下普遍規律:

注意力平坦化現象。

推理過程會使約束注意力軌跡趨于平緩;在性能下降的案例中,答案生成階段的約束注意力普遍降低約23%。  

注意力增強現象。  

當推理提升性能時,答案段會出現明顯的注意力峰值(平均提升15%);這種增強與關鍵約束的準確識別呈正相關(r=0.62)。

圖片

圖1:Qwen2.5-1.5B-Instruct模型在兩個數據集上的約束注意力軌跡示例。自上而下分別展示推理導致持平(TIE)、失敗(LOSE)和成功(WIN)三種情況的對比。紅色虛線標記思維過程(Thinking)的開始位置,綠色虛線標記答案生成(Answer)階段的起始點

當使用CoT推理時,多款主流模型的這個分數顯著下降

  • DeepSeek-R1-Distill:下降0.161
  • Qwen2.5-1.5B-Instruct:下降0.090

這意味著:模型確實更少關注任務限制,更容易出錯,比如加了不該加的標點、解釋、格式錯位等。

圖2展示了在「成功」(WIN)與「失敗」(LOSE)兩類樣本中,這種注意力下降在不同。

數據顯示,與未使用推理的情況相比,失敗案例的注意力下降幅度普遍更為顯著

圖片

圖2:Qwen2.5-1.5B-Instruct模型在IFEval數據集中,WIN(成功)與LOSE(失敗)案例在各典型層的約束注意力下降值(基線-思維鏈模式)

論文還發現:推理步驟越多,指令遵循能力越差;兩者間的相關性幾乎為0,長推理≠高表現!

換句話說,CoT不是寫論文,不是越長越有用,反而可能「越寫越偏」

如何解決?4種緩解策略來了!

改進方法

基于這些發現,研究人員提出四種改進方案:

  • 上下文學習:通過典型錯誤示例修正推理偏差,帶來了小幅度的性能提升;  
  • 自我反思:引導模型對推理過程進行自檢。在IFEval數據集上,自我反思帶來了顯著提升;ComplexBench數據集上,效果較差。  
  • 自選擇推理:讓模型自主判斷是否需要推理。在IFEval上,它帶來了中等程度的提升;在ComplexBench上表現更為出色,所有模型性能均有提升。  
  • 分類器選擇推理:用訓練好的分類器控制推理觸發。

該方法效果顯著,幾乎在所有模型和兩個基準測試上都帶來了性能提升,但需要針對每個模型單獨訓練分類器,這會增加額外的開發和運維成本。

每種緩解策略在不同的模型能力和任務復雜度下都有其優缺點。

根據結果,研究者推薦如下決策流程:

  • 首先評估任務指令的復雜度——可以通過簡單的啟發式規則或訓練好的分類器來判斷;
  • 對于較簡單的任務(如IFEval),推薦使用自我反思分類器選擇推理
  • 對于更復雜或邏輯結構更復雜的任務(如ComplexBench),推薦使用自我選擇推理分類器選擇推理

總體而言,分類器選擇推理在兩個基準測試中都表現出最穩定和最優秀的性能,盡管它需要進行模型特定的訓練。

詳細結果見表1和圖3,其中也包括與CoT基線的性能差異對比。

圖片

圖3:跨模型與方法的指令遵循準確率可視化分析(基于IFEval與ComplexBench基準)

給AI開發者的幾點提醒

  • 不是所有任務都需要推理:簡單任務/格式明確的輸入,直接輸出即可。
  • 明確提示中的規則:不要讓模型在推理時「模糊掉」關鍵限制。
  • 引入判斷機制:讓模型或分類器判斷是否需要推理。

大模型的「聰明」,該被約束。

在AI開發中,大家喜歡「聰明」的模型,但真正的智能不是亂想,而是:

知道什么時候該想,什么時候該閉嘴。

思維鏈依舊重要,但不是萬能鑰匙。我們需要重新理解它的邊界與風險。

作者介紹

值得一提的,論文的第一作者兼通訊作者Xiaomin Li。

圖片

圖片

他目前在哈佛大學攻讀應用數學博士學位。

他的研究方向是機器學習與生成模型的數學理論,以及大語言模型的應用等。

2020年5月,他以滿績點的優異成績,獲得伊利諾伊大學厄巴納-香檳分校數學理學學士與計算機科學工程學士雙學位。

同年,他于哈佛大學攻讀博士學位,期間他有多段Meta等公司的實習經歷。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-03-05 04:00:00

2024-09-23 09:40:00

AI數學模型

2024-11-12 13:40:00

2024-09-09 08:31:15

2025-08-11 07:00:00

2023-06-01 17:06:49

模型思維

2025-04-07 09:23:00

大模型LLM推理

2025-07-03 01:45:00

LLMCoT思維鏈

2025-02-07 16:07:39

2024-01-29 09:40:00

AI訓練

2025-01-27 12:03:11

2025-10-11 09:06:52

2024-12-12 09:00:00

2025-02-10 13:00:00

模型訓練AI

2023-06-01 17:23:26

AI模型

2023-09-12 14:45:18

2023-06-26 07:42:39

2023-12-25 09:23:07

模型技術

2025-05-16 08:44:01

點贊
收藏

51CTO技術棧公眾號

在线观看成人免费| 免费播放片a高清在线观看| 在线播放色视频| 久久三级福利| 欧美图片一区二区三区| 亚洲综合欧美日韩| 日韩不卡免费高清视频| 不卡一区在线观看| 韩国精品久久久999| 99tv成人影院| 午夜精品亚洲一区二区三区嫩草| 国产精品美女久久久久久久| 精品在线91| 精品国产乱码久久久久久果冻传媒 | 在线视频91p| 99久久99久久免费精品蜜臀| 在线看视频你懂的| 日韩三级视频在线观看| www.日本xxxx| 日韩电影不卡一区| 日韩欧美一二三四区| 欧美成人精品免费| 精品久久久久久久久久久下田| 91精品国产品国语在线不卡| 九九视频精品在线观看| 澳门成人av| 精品欧美一区二区久久| jk破处视频在线| 久久成人av少妇免费| 97超碰色婷婷| 国外成人福利视频| 日韩视频在线一区二区| 黄色视屏在线免费观看| 久久久蜜桃精品| 亚洲最大在线视频| 久久精品九色| 亚洲精品日韩久久久| 在线视频国产区| 欧美日韩中文字幕一区二区| 大j8黑人w巨大888a片| 激情婷婷综合| 亚洲第一精品夜夜躁人人爽| 欧美电影院免费观看| 蜜桃臀一区二区三区| 亚洲综合在线观看视频| 深爱激情久久| 亚洲小说区图片区| 国产精品扒开腿做爽爽爽男男| 三级在线观看一区二区| 亚洲精品一二三四五区| 日韩精品一区二区三区中文不卡| av天在线观看| 国产成人福利片| 4480yy私人影院高清不卡| 伊人伊成久久人综合网小说| 一区视频在线看| 久久久久福利视频| 91麻豆免费在线观看| 国产夫妻自拍一区| 亚洲主播在线播放| 婷婷丁香六月天| 里番在线播放| 深夜精品寂寞黄网站在线观看| 成人三级av在线| 亚洲资源在线看| 国产精品小仙女| 在线视频网站| 亚洲精品www| 国产不卡av一区二区| 神马影院我不卡午夜| 国产精品国产三级国产a| 日本中文字幕在线视频| 久久久精品欧美| 亚洲精品一区二区妖精| 自拍亚洲欧美老师丝袜| 亚洲精品国产一区二区三区四区在线| 久草资源在线观看| 午夜精品一区二区三区在线视频| 亚洲一区成人| 又黄又爽又色视频| 亚洲黄色在线看| 成人综合一区| 欧美 日韩 亚洲 一区| 欧美四级电影网| theporn国产在线精品| 欧美综合激情| 一区二区三区精密机械公司| 卡通欧美亚洲| 国产日韩在线一区二区三区| 久久久精品国产免费观看同学| 韩国中文字幕在线| 国产精品久久久久久久av电影| 高清av一区二区| 91吃瓜网在线观看| 国产a级全部精品| 成人午夜av电影| 在线观看完整版免费| 国产成+人+综合+亚洲欧洲| 国产伦精品一区二区三区免费 | 久久久综合网站| 中国av在线播放| 91成人在线看| 一区二区三区中文免费| 四虎视频在线精品免费网址| 亚洲欧美一区二区原创| 欧美日韩高清不卡| 影视亚洲一区二区三区| jlzzjlzz欧美| 欧美日韩国产91| 激情五月婷婷综合网| 中文字幕中文字幕在线中高清免费版| 91人成网站www| 一区二区三区波多野结衣在线观看| av在线国产精品| 久久av综合网| 亚洲精品视频在线观看视频| 久久亚洲国产精品一区二区| 91在线播放网站| 国产精品白嫩美女在线观看| 国产日韩欧美在线播放| 99免费精品在线观看| 久久久久久久久免费视频| 国产精品劲爆视频| 中文字幕欧美一| 嫩呦国产一区二区三区av| 国产 国语对白 露脸| 日韩电影在线观看永久视频免费网站| 99精品免费| 成人一区二区不卡免费| 91免费福利视频| 亚洲.国产.中文慕字在线| 蜜臀av免费一区二区三区| 国产欧美高清在线| 久久成人18免费网站| 成人av电影免费在线播放| 日本一区二区三区视频在线| 狠狠精品干练久久久无码中文字幕 | 色婷婷视频在线观看| 精品国产一区二区三| 欧美三区在线视频| 亚洲电影成人| 污片视频在线免费观看| 99热这里只有精品7| 亚洲天堂第一页| 99精品视频在线播放观看| 久久在线观看| 理论片鲁丝二区爱情网| 91九色国产社区在线观看| 欧美日韩一区二区三区高清| 免费在线观看成人av| 2022成人影院| 免费日韩视频在线观看| 热草久综合在线| 色欲综合视频天天天| 久久久久久久欧美精品| 在线免费日韩片| 污视频免费在线观看网站| 国产精品久久久久99| 91久久免费观看| 美女国产一区二区三区| **欧美日韩在线| 黄页免费在线观看| 欧美激情导航| 国产一区二区av| 亚洲伦在线观看| 亚洲免费网址| 伊人国产精品| 日本一本草久在线中文| 亚洲精品在线观看免费| 久久中文字幕国产| 午夜精品久久久久久久99水蜜桃| 免费欧美日韩| 榴莲视频成人app| 尤物网站在线| 夜夜爽www精品| 欧美激情在线狂野欧美精品| 亚洲.国产.中文慕字在线| 新67194成人永久网站| 欧美极品在线| 久久久久久青草| 日本中文字幕网址| 99re在线观看视频| 日韩中文字幕欧美| 色婷婷亚洲婷婷| 99久久er热在这里只有精品66| 欧美jizz| 性欧美freehd18| 色视频免费在线观看| 欧美乱大交xxxxx潮喷l头像| 91精品视频播放| 精品国偷自产在线视频| 在线观看不卡一区| 国产日韩亚洲欧美综合| 久久综合九色| 精品一区电影| 成人mm视频在线观看| 国产高清自拍视频在线观看| 男人亚洲天堂网| 日韩啊v在线| 国产伦精品一区二区三区精品视频|