国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

現在的LLM或浪費96%GPU,推理系統或要推倒重做!英偉達華人團隊神作:免費Token槽榨出近6倍token速度! 原創

發布于 2025-11-19 11:20
瀏覽
0收藏

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

每個做 LLM 的開發者都體會過這種折磨:推理太慢。你等 2–3 秒才能出一個 token。

然而,真相更讓人產生戲劇感:你和用戶已經抱怨延遲 N 個月了,但你的 GPU 大部分時間其實都在發呆。

更魔幻的是,不管你怎么操作,CUDA 核心就是一直閑著。一點加速辦法都沒有。

為什么?因為問題不在于你的硬件,也不是你的代碼,而是出在了 LLM 這種自回歸語言模型本身的結構,以及 GPU 的工作方式上。

你的GPU可能大部分時間都被浪費掉了!

單純堆算力不管用:「內存墻」

自回歸模型一次只能生成一個 token。聽起來很合理——語言是順序的,那按順序生成就好。但在 GPU 內部,每一步生成實際發生的是:

  1. 從顯存加載模型權重(以 GB 計)
  2. 從顯存加載 KV Cache(也是 GB 級別)
  3. 計算下一個 token 的概率(微秒級)
  4. 寫入新的 KV Cache
  5. 重復

計算本身幾乎不花時間。真正的瓶頸在 內存帶寬——也就是不斷搬運權重和 KV cache。你的 GPU 每秒能執行數萬億次計算,但大部分時間其實都在等數據。

這就是所謂的 “memory-bound(受內存帶寬限制)”,也解釋了為什么單純增加算力并不能帶來提升。

業界給出的方案是 推測解碼(speculative decoding):

用一個更小的起草模型(draft model)一次生成多個候選 token,再由主模型做驗證。

這個方法雖然有效,但有天花板:

  • 起草模型更弱,所以 通過率(acceptance rate)會下降;
  • 仍然是 順序式處理,無法完全并行;
  • 而且需要維護 兩個獨立的模型。

最喜歡的Trick:免費 token 槽位

那有別的辦法嗎?當然。

其實,大多數人不知道 GPU 推理里有這么一個概念:免費Token槽位(Free Token Slots):

如果瓶頸在于顯存帶寬,你其實可以在一次前向計算里并行解出多個 token,延遲幾乎不變。

ps:內存帶寬搬來的數據只用來生成一次token就太浪費了,它可以運算多次!

想想看,模型權重和 KV cache 都已經加載進來了。如果用同一份數據能一次性預測 10 個 token,而不是只預測 1 個,你的有效吞吐就直接提升 10 倍。

這樣,額外的算力開銷幾乎可以忽略——反正你卡的是顯存帶寬。

這個想法,來自于英偉達的研究團隊。他們近日在一篇名為《TiDAR: Think in Diffusion, Talk in Autoregression》的論文中提到了一種“TiDAR”的方法。(沒錯,又是華人團隊霸榜作者名單!)

現在的LLM或浪費96%GPU,推理系統或要推倒重做!英偉達華人團隊神作:免費Token槽榨出近6倍token速度!-AI.x社區圖片

研究人員在 H100 上,基于 Qwen3-32B 做過測量:

當 batch size 是 1、上下文長度是 4096 tokens 時,增加“待解碼 token 槽位”的數量,對延遲的影響非常小,直到接近 100+ 個 token 才開始明顯上升。

在這以下的區間,你基本處于 “免費 token 槽位” 區域:并行解碼的成本幾乎可以忽略不計。

現在的LLM或浪費96%GPU,推理系統或要推倒重做!英偉達華人團隊神作:免費Token槽榨出近6倍token速度!-AI.x社區圖片

這也是“擴散式語言模型”(diffusion LLM)看起來很有吸引力的原因——它們本來就是一次性預測多個 token。當然,伴生的問題就是:質量會掉。

質量 vs 并行:無法回避的矛盾

輸出的token質量高,與輸出的延遲低,是一個“魚和熊掌”的問題。

擴散模型的生成過程是:對被 mask 的 token 反復去噪。開始時整個序列都是 mask,然后通過多輪迭代逐步恢復真實 token。問題在于:當你把多個 token 并行解碼時,會破壞語言模型賴以運作的因果結構。

自回歸模型遵循鏈式分布分解:

p(x?, x?, …, x?) = p(x?) × p(x?|x?) × p(x?|x?,x?) × …

每個 token 都依賴之前所有 token,這符合語言的自然結構。

但擴散模型的并行解碼更像是從相互獨立的邊緣分布中采樣:

p(x?, x?, …, x?) ≈ p(x?) × p(x?) × p(x?) × …

也就是說,同一步里生成的 token 互相之間是獨立的。這會破壞序列級別的連貫性,并行越多,質量下降越嚴重。

例如開源中表現領先的擴散類 LLM——Dream-7B:只把每步預測 token 數從 1 個提升到 2 個,GSM8K 上的準確率就下降 10%。

Llada 以及其他擴散模型同樣存在這個結構性問題:并行更多,質量更差。

最終,擴散模型最好的生成質量往往是在 一次只預測一個 token 時出現——

這正好抵消了它試圖通過并行獲得速度優勢的初衷。

TiDAR:擴散模型的并行 + 自回歸的質量

如何破解這個“魚和熊掌”的難題?

英偉達團隊在論文中提及了一個核心思想:擴散思考,回歸表達。

Think in diffusion, Talk in autoregression.

具體而言,TiDAR 的思路是:

一次 forward,把擴散的并行和自回歸的驗證放在一起完成。

現在的LLM或浪費96%GPU,推理系統或要推倒重做!英偉達華人團隊神作:免費Token槽榨出近6倍token速度!-AI.x社區圖片

每步分成 3 類 token:

  1. 前綴 token:已經生成的內容,用因果注意力,可緩存
  2. 上一步的草稿 token:自回歸方式驗證,能接受的加入前綴,不能的丟棄
  3. 下一步的預草稿 token:用雙向注意力并行生成多組候選,根據驗證結果選擇對應的一組

所有這些步驟,都依靠結構化注意力掩碼(structured attention masks) 在一次前向計算中完成,不需要兩次推理,不需要兩個模型。

現在的LLM或浪費96%GPU,推理系統或要推倒重做!英偉達華人團隊神作:免費Token槽榨出近6倍token速度!-AI.x社區圖片

這樣做為何能成立且有效?因為它解決了四個方面的難題。

首先是,“起草”能力強。該方法的草稿模型,其實就是主模型本體。使用的權重完全相同,而不是一個弱小的附屬模型。因此草稿質量高,因為完整模型的表達能力都在參與起草。

其次,并行生成。擴散式注意力允許同時生成多個 token。這利用了前面提到的 “免費 token slot” 特性。


第三,質量有保證。自回歸式的拒絕采樣確保輸出質量和純 AR (自回歸)模型一致。你采樣的是鏈式分解后的聯合分布(chain-factorized joint distribution),而不是互不關聯的獨立邊緣分布。


最后,單次前向。起草與驗證是同步進行的,不再分多個步驟串行。

訓練方式

TiDAR 的 Attention Mask 是混合式的(也就是混合注意力):

  • 對 prefix 做因果 attention
  • 對草稿塊內部用雙向 attention

不同于擴散模型的復雜 masking,TiDAR 的訓練做得非常簡單:在擴散區域把 token 全部 mask。這將帶來三點好處:

  1. 稠密損失信號:每個 token 都參與訓練,信號密集
  2. 容易平衡損失:AR 與 Diff 區域 token 數一致,不依賴隨機 mask
  3. 訓練-推理一致性:推理時草稿區域本來就是全 mask,不會分布不一致

新方法有多快?近6倍

研究團隊在實驗中發現,這種新方法帶來的效果增益十分顯著,數據相當硬核。

TiDAR 1.5B:平均每次 forward 生成 7.45 個 token → 比 Qwen2.5 1.5B 快 4.71 倍(質量一致)

TiDAR 8B:8.25 token/forward → 比 Qwen3 8B 快 5.91 倍(質量幾乎不變)

也就是說,在不影響質量的情況下,相較于主流加速策略,TiDAR 這種新方法可以將推理速度提升至近6倍。

而在具體的基準任務評測中,質量和 Token 生成速度也都十分能打。

現在的LLM或浪費96%GPU,推理系統或要推倒重做!英偉達華人團隊神作:免費Token槽榨出近6倍token速度!-AI.x社區圖片

編碼任務:(準確率,單次前向計算token生成數)

  • HumanEval:43.29%,6.50 token/NFE
  • MBPP:41.40%,9.25 token/NFE
  • MBPP+:61.11%,9.43 token/NFE

數學任務:

  • GSM8K:53.90%,5.07 token/NFE

這些分數與基礎自回歸模型相當或更好,但一次 forward 不是生成 1 個,而是 5–9 個。

備注:所有測試均在 H100 + batch size=1。同時,沒有 custom kernel,只用 PyTorch + FlashAttn2。

大模型的推理系統或要重做一遍

這一新方法的提出,可以說將會對大模型推理系統的整個技術棧的運行邏輯、性能行為帶來重大的影響。

包括 LLM 在一個完整的推理服務系統里怎么消耗算力、怎么占內存、怎么安排 attention mask、怎么部署模型等等,統統都會發生變化。

1. 內存流動方式變得更高效了

傳統方法:

  • 兩個模型來回切換(主模型 + draft 模型)
  • KV cache 不斷寫入、丟棄、重復計算
  • 顯存像搬家一樣一直在“挪東西”

TiDAR:所有事情在一次 forward 內搞定。

  • 一個模型
  • 一套權重
  • KV cache 更精確管理

前綴 token 會按因果方式正常寫入緩存;

被拒絕的草稿 token,其對應的 KV cache 會被立即清理;

完全不需要像純擴散式方法那樣重新計算。

  • 不來回搬數據

結果就是:顯存壓力更小、 GPU 更少浪費時間等待數據。

2. 底層算子會更快跑

TiDAR 用到了結構化的注意力 mask + Flex Attention。優勢在于:

  • mask 不需要每次重新算
  • kernel 執行路線更清晰
  • 每次推理的啟動時間更短

ps:有了 Flex Attention,加速更徹底。你可以在初始化時只創建一個大型 attention mask,后續只根據當前前綴長度切片(slice)即可。無需在每一步重新計算動態 mask。

這也是屬于工程師一看會拍大腿:“這玩意更好調度!” 的那種進步。

3. 在線服務部署更簡單

之前做 speculative decoding 的公司常常抱怨:“一套模型已經夠折騰了,再來一個 draft 模型?上線要出人命。”

TiDAR 的好處是:只要一個模型,就是全套流程。整個架構非常適合在線服務。

  • 部署時不需要對齊兩套權重
  • 不需要給 draft 模型設置額外超參數
  • 整體架構更清爽

對任何做云服務的團隊來說:越少的模型,越少的雷。

4. 硬件利用率更高

TiDAR 的 trick:找到 GPU 上那些“幾乎免費”的 token Slot,把它們填滿。

H100 上的表現是:

  • 正常算力沒變
  • 但吞吐能暴漲 5–6 倍
  • 延遲能瞬間壓到 200ms 級別

這也是系統優化所帶來的質變:不降低輸出質量的情況下,系統更順滑。

5. 批處理(batching)也受影響

對于 batch=1 的實時應用(對話、代碼補全),TiDAR 簡直是提速神器。當然對于 batch 很大的吞吐場景,它的優勢沒前者那么夸張。

這在工程上就意味著:現有的LLM調度策略可能也要重新設計了。

基礎設施成本可砍掉8成

更重要的是,不止對于大模型廠商及研發人員有重要影響,對于我們生產和應用側也會帶來質的變化。

如果你在規模化運行 LLM 推理,吞吐量幾乎直接等于基礎設施成本。吞吐提升 5 倍,就意味著你只需要五分之一的服務器;或者在同樣的機器數量下服務 5 倍的用戶。

對于對延遲敏感的應用,比如:代碼補全、對話式 AI、實時分析,速度提升能讓過去“太慢而無法使用”的交互變得可行。從 1 秒響應縮短到 200 毫秒,本質上改變了整個用戶體驗。

而在正確性至關重要的任務中,質量保證更不可妥協:生成代碼、解數學題、抽取結構化數據,都不能容忍質量下降。TiDAR 在不犧牲準確性的前提下提供速度優勢。

現實中的三點限制

TiDAR 并非沒有代價。一位相關研究人員讀完這種新方法后,發現了三點限制。

首先,是上下文的問題。

該方法在訓練時需要將序列長度加倍,因為要在輸入中拼接帶掩碼的 tokens。這會讓長上下文擴展變得更昂貴——不是做不到,但需要使用像 context parallelism 這樣的專門方法。

其次,Batch size 的影響也很顯著。

論文中 5–6 倍的加速來自 batch size = 1 的場景,這是延遲敏感且明顯受限于內存帶寬的設置。當 batch size 變大時,系統會從“內存受限”轉向“算力受限”,TiDAR 的相對優勢會縮小。

而實際生產系統恰恰是混合情況:有些請求必須 batch 1,有些則可以合批求吞吐。TiDAR 在前者中表現突出,在后者中維持不錯的競爭力。

最后,硬件本身也是關鍵變量。“Free token slots” 現象是在 H100 上測得的。更舊的 GPU、不同的內存架構、不同廠商的芯片,可能會呈現不同的曲線。核心機制普遍成立,即通常都存在額外 token 基本免費的一段區間,但具體數值會變化。

巧的是,研究團隊在論文中針對前兩點給出了回應。

對于長上下文擴展的問題。研究團隊認為,與標準自回歸模型相比,TiDAR 并不存在結構上的長上下文能力限制。

當前實現需要在訓練時因附加掩碼 token 而將序列長度加倍,因此我們把針對 TiDAR 的高效長上下文擴展方法(例如專門為其設計的 context parallelism)留待未來工作繼續探索。

對于第二點,Batch size 不同,競爭優勢不明顯的問題,團隊也給出了解法。

在論文中,主要關注 batch size = 1 的效率基準,但這并不意味著 TiDAR 無法處理更大的 batch size。

我們不僅可以在解碼過程中以零樣本方式調整 block(draft)長度,以適應不同的算力配置,還能在 FLOPs/token 指標上達到具有競爭力的表現。

不依賴開源系統,可復現

注意,這項成果非常新,不到 5 天前剛剛發表的。

但這是第一次,有一種架構能夠在保持自回歸(AR)模型質量的同時,實現接近擴散模型的并行生成能力。無需在速度和正確性之間做取舍,也不需要維護獨立的草稿模型,更不存在額外的串行開銷。

當然,目前還只是論文展示的結果。還需要更多的社區、更多的時間進行復刻和獨立驗證。

尤其是其“免費 token 槽位”這一提出,真的驚艷到了。

它不僅揭示了LLM訓練和推理的兩者截然不同的瓶頸現狀:訓練可以靠錢和算力堆上去,但推理卻受制于物理層面的因素——內存帶寬、延遲、功耗。

同時,英偉達團隊提出的方法可以說是為更好的推理架構提供了一種更高效的思路。

TiDAR 展示出:解決“推理受限于內存帶寬”這一問題,并不一定要靠“買更大的 GPU”或“等下一代硬件”

通過架構創新:重新設計注意力結構和 token 生成方式,可以從現有硬件中榨出更多性能。

不論 TiDAR 是否最終成為行業標準,或成為未來改進方案的基礎,這類思路都值得深入理解。

值得注意的是,這套新架構本身不依賴任何閉源系統,細節也很充分,所以對于業內感興趣的朋友來說,復現起來并不難。

如果其優勢在獨立實驗中得到驗證,很可能在幾個月內就會被部署到生產環境中。

華人團隊,功不可沒的大模型推動者

最后多說一嘴,今年以來,一個很明顯的感受是,大模型最強的戰場已經從模型規模轉移到了提高推理速度、降低推理成本上。而小編發現,華人團隊在這方面的工作功不可沒。

從 DeepSeek 的自研“混合讀寫注意力機制”、到Kimi、清華、阿里等產學研共建的高效開源的推理架構 Mooncake,再到今天這篇華人團隊的 TiDAR 的奇作,每一個都給業界帶來了很大的驚喜,大大向前推進了大模型在國內甚至全球范圍內的普及。

向他們致敬!

論文地址:https://arxiv.org/pdf/2511.08923

參考鏈接:https://medium.com/gitconnected/why-your-llm-is-wasting-96-of-your-gpu-f46482d844d1

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
日韩精品视频中文字幕| 亚洲精品免费在线观看| 国产精品美女久久久免费| a看欧美黄色女同性恋| 欧美成人中文字幕| 欧美经典影片视频网站| 欧美精品激情在线| 亚洲免费成人av在线| 国产精品精品一区二区三区午夜版| 91在线一区| 欧美一区深夜视频| 成人激情免费视频| 91在线在线观看| 久久中文在线| 国产美女网站在线观看| 中文av一区二区| 四虎在线免费看| 日韩亚洲欧美一区| 国产成人精选| 日韩美女视频在线观看| 亚洲欧美综合| 一区二区三区四区| 中文字幕免费在线观看视频一区| 日本欧洲一区| 欧美精品99久久久**| 美女福利一区二区| 国产99久久精品一区二区| 欧美激情在线| 欧美一区二区三区综合| 国产人成一区二区三区影院| 亚洲综合在线一区| 亚洲第一中文字幕| 国产精品丝袜在线播放| 国产亚洲第一区| 成人av电影在线播放| 亚洲精品午夜在线观看| 欧美日韩精品一区二区三区四区| 亚洲精品**中文毛片| 日本精品中文字幕| 新67194成人永久网站| 麻豆传传媒久久久爱| 日本乱人伦aⅴ精品| 欧美va在线观看| 国产精品美女无圣光视频| 免费在线观看成人| 久久综合色播| 亚洲欧美国产高清va在线播| 免费短视频成人日韩| 青青成人在线| 国产欧美精品区一区二区三区 | 国产亚洲欧美激情| 天堂91在线| 中文字幕日韩电影| 国内精品美女在线观看| 亚洲熟女乱色一区二区三区| 欧美日韩你懂得| 北条麻妃在线一区二区免费播放 | 西西人体一区二区| 在线看的黄色网址| 精品久久久久久久久久久久久久久久久| 精品国模一区二区三区欧美| 日本一区高清在线视频| 亚洲超碰97人人做人人爱| 成人国产精选| 日韩亚洲一区在线播放| 香港成人在线视频| 精品一区二区三区在线观看视频| 国产一区二区不卡视频在线观看| 国产精品无人区| 日韩精品一区二区三区av| 久久99精品国产一区二区三区| 亚洲三级电影网站| 色综合一区二区日本韩国亚洲| 久久精品国产精品青草色艺| 亚洲综合色区另类av| 欧美一区在线观看视频| 中国女人做爰视频| 91精品国产91热久久久做人人| 精品视频免费| 四虎av网址| 伦理中文字幕亚洲| 秋霞午夜鲁丝一区二区老狼| 亚洲s色大片在线观看| 91精品国产高清久久久久久| 成人97人人超碰人人99| 欧洲一区精品| 亚洲精品高清视频| 欧美卡1卡2卡| 亚洲天堂男人| 国产精品秘入口| 国产精品免费久久久| 亚洲日本电影在线| 国产毛片久久久| 激情五月亚洲色图| 麻豆国产va免费精品高清在线| 国产很黄免费观看久久| 涩涩视频在线播放| 四虎影院一区二区| 日韩av资源在线播放| 日本成人在线电影网| 性xxxxfjsxxxxx欧美| 日韩国产美国| 亚洲第一男人天堂| 精品一区二区三区欧美| yellow在线观看网址| 亚洲欧美日本国产有色| 日韩一卡二卡三卡四卡| 午夜在线视频一区二区区别| 麻豆网站在线| 日本a级片久久久| 日韩欧美国产小视频| 日韩精品一二三| 欧美亚洲系列| 日日噜噜噜夜夜爽爽| 亚洲裸体xxxx| 91丨porny丨户外露出| 精品一区二区三区四区五区| 一区二区三区 欧美| 青草青草久热精品视频在线观看| 亚洲人精品一区| 欧美精品一二| 国产私拍精品| 亚洲7777| 在线观看免费高清视频97| 成人免费视频播放| 欧美黄色一级| 欧美r片在线| 91在线短视频| 精品日韩在线观看| 国产麻豆9l精品三级站| 亚洲91在线| 污污免费网站| 国内精品**久久毛片app| 欧美精品一区二区三区视频| 成人免费视频一区二区| 麻豆一区一区三区四区| 日本中文字幕电影在线观看| 欧美日韩一区综合| 在线不卡国产精品| 亚洲欧美色综合| 亚洲欧洲午夜| 一区二区视频免费完整版观看| 四虎永久在线精品无码视频| 91av视频在线播放| 欧美日韩一区二区在线视频| 黄网站免费久久| 欧美91在线| 国产原厂视频在线观看| 少妇高潮喷水在线观看| 国产精品美女免费| 日韩精品一区二区三区视频| av毛片久久久久**hd| 日韩国产一区二区三区| 91精品久久久| 可以免费在线看黄的网站| 国产欧美精品一区二区三区-老狼| 欧美亚州韩日在线看免费版国语版| 国产一区二区三区美女| 少妇精品导航| 伊人精品影院| 成人天堂入口网站| 神马影院一区二区| 欧美国产高跟鞋裸体秀xxxhd| 色婷婷精品大在线视频| 国产成人啪免费观看软件| 国产精品欧美日韩一区| 丁香影院在线| av三级在线播放| 毛片在线视频观看| 91精品久久久久久久久久久久久久 | 久久久久久久综合日本| 在线看片不卡| 成人在线视频区| 9i精品一二三区| 男人天堂网视频| 国产一区二区不卡视频| 欧美精品电影免费在线观看| 欧美一区二区免费视频| 国产精品黄色在线观看| 奇米一区二区三区| 日韩欧美网址| 国产激情综合| 伊人影院在线视频| 嫩草懂你的影院| 国产夫妻自拍一区| 丁香婷婷久久久综合精品国产| 一区二区在线视频| 欧美精品日韩一区| 亚洲自拍偷拍图区| 久久久精品国产免大香伊| 裸体一区二区| 99久久99热这里只有精品 | 狠狠干在线视频| 国产精品裸体瑜伽视频| 欧美日韩一区二区视频在线| 国产欧美一区二区白浆黑人| 欧美久久精品一级黑人c片| 亚洲精品在线网站| 色婷婷久久久综合中文字幕| 中文无字幕一区二区三区|