国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

推理速度10倍提升,螞蟻集團開源業內首個高性能擴散語言模型推理框架dInfer

人工智能 新聞
dInfer 的誕生,不僅是一個工具的發布,更是一次 LLM 范式的試煉:它證明了擴散語言模型的效率潛力并非空中樓閣,而是可以通過系統性的創新工程兌現,使其成為 AGI 道路上極具競爭力的選項。

近日,螞蟻集團正式開源業界首個高性能擴散語言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。

在基準測試中,dInfer 將 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上,并在關鍵的單批次(batch size=1)推理場景下,作為首個開源框架實現了大幅超越經過高度優化的自回歸(AR)模型的性能里程碑,在 HumanEval 上達到 1011 tokens / 秒的吞吐量 。dInfer 通過一系列算法與系統協同創新,攻克了 dLLM 的推理瓶頸,兌現了其內生并行生成帶來的推理效率潛力。

這不僅為開發者提供了即刻可用的高效推理框架,更標志著擴散語言模型這一全新的范式邁出了走向成熟的堅實一步。

  • 論文鏈接:https://arxiv.org/abs/2510.08666
  • 項目地址:https://github.com/inclusionAI/dInfer

理論的「翅膀」,現實的「枷鎖」:擴散語言模型的推理困境

近年來,以自回歸(Autoregressive,AR)范式為核心的大語言模型(Large Language Models)已經取得了巨大的成功,推動了智能問答、代碼生成、智能體助手等領域的重大進步。然而,AR 生成范式也存在其固有瓶頸:生成過程完全依賴前序結果,必須逐詞串行生成,這導致推理延時難以降低,即使 GPU 的并行計算能力強大也無用武之地。

作為一種全新的范式,擴散語言模型(dLLM)應運而生 。它將文本生成視為一個 「從隨機噪聲中逐步恢復完整序列」的去噪過程 。這種模式天然具備三大優勢:

  • 高度并行:理論上可以在單次迭代中,并行地預測和更新序列中的多個 token 。
  • 全局視野:模型的每一步決策都基于對整個序列的全局上下文理解,而非僅依賴于已生成的部分 。
  • 結構靈活:更易于適應多模態、代碼生成等需要復雜結構和長程依賴的任務 。

憑借這些優勢,以 LLaDA-MoE 為代表的 dLLM 已在多個基準測試中,展現出與頂尖 AR 模型相媲美的準確性 。然而在推理效率方面,dLLM 理論上的強大潛能,卻長期被殘酷的現實「枷鎖」所束縛。dLLM 的高效推理面臨三大核心挑戰:

  1. 高昂的計算成本:多步迭代去噪的特性,意味著模型需要反復對整個序列進行計算,這帶來了巨大的算力開銷 。
  2. KV 緩存的失效:dLLM 中的雙向注意力機制,使得 token 對應的 KV 值在每次迭代中都會改變。這導致 AR 模型中「一次計算、永久復用」的 KV 緩存技術直接失效,使得推理過程異常昂貴 。
  3. 并行解碼的雙刃劍:盡管理論上可以并行生成序列中的所有 token,但在難以精準刻畫其聯合概率分布的情況下一次性解碼太多 token,極易引發彼此間的語義錯配,導致「并行越多,質量越差」的窘境 。

這些瓶頸使得 dLLM 的推理速度一直不盡人意,其并行生成帶來的效率淪為「紙上談兵」。如何打破枷鎖,釋放 dLLM 在推理效率的潛能,成為整個領域亟待解決的難題。

dInfer:人人可上手的擴散語言模型高效推理框架

為徹底突破上述瓶頸,螞蟻集團推出了 dInfer—— 一個專為 dLLM 設計的、算法與系統深度協同的高性能推理框架 ,可支持多種擴散語言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer 的設計哲學是模塊化與可擴展性,以系統性集成算法與系統優化。如下圖所示,dInfer 包含四大核心模塊:模型接入(Model)、KV 緩存管理器(KV-Cache Manager),擴散迭代管理器(Iteration Manager),和解碼策略(Decoder)。

這種可插拔的架構,允許開發者像搭樂高一樣,進一步組合和探索不同模塊的優化策略,并在統一的平臺上進行標準化評測 。更重要的是,dInfer 針對上述三大挑戰,在每個模塊中都集成了針對性的解決方案。

dInfer 如何「快」起來? 

1.削減計算成本,控制生成質量:鄰近 KV 緩存刷新 (Vicinity KV-Cache Refresh)

dLLM 使用雙向注意力機制讓模型獲得更全局的視野,代價是每次解碼會影響所有的 token 的 KV 值,導致 AR 模型依賴的 KV 緩存技術不能直接應用到 dLLM 上。如果不使用任何 KV 緩存,在一個 sequence 上的一次 diffusion 迭代會導致大量的計算。

為了削減計算成本,Fast-dLLM 提出的將 sequence 劃分為 block,然后再逐個對 block 進行解碼,并在當前解碼 block 之外進行 KV 緩存的方法,可以有效降低 diffusion 迭代的計算成本。然而雖然利用上了 KV 緩存,但在大部分情況下,緩存中的 KV 實際上是過時的,因此會導致生成質量的下降。

為了緩解這一問題,dInfer 采取了一種鄰近刷新的策略:KV 緩存過時的原因是 dLLM 中一個新 token 的確定,會影響全局所有 token 的 KV 表示。而 dInfer 基于「語義局部性」原理( 一個詞的更新,對其近鄰詞的影響最大),在每次迭代解碼一個 block 時,dInfer 只選擇性地重新計算該區塊及其鄰近一小片區域的 KV,而讓遠處的緩存保持不變 。這好比修改文檔中的一句話,你只需檢查上下文是否通順,而無需重讀整篇文章。

這種策略結合 dInfer 的其它優化,在計算開銷和生成質量之間取得了平衡,首次讓 KV 緩存機制在 dLLM 上高效、可靠地運作起來。

2.系統優化:讓 dLLM 的前向運算速度追上 AR

在利用上 KV 緩存之后,dInfer 選擇了合適的 block 大小和 Vicinity KV-Cache Refresh 的范圍,并做了一系列的系統優化,以使 dLLM 一次迭代的速度能追上運行在 SOTA 的推理服務框架如 vLLM 上的 AR 模型,包括:

  • 多卡并行:結合了張量并行 (TP) 與專家并行 (EP),即使在 batch size=1 的條件下,也能充分利用 GPU 的算力,效率提升超 100%。
  • 編譯優化:通過 torch.compile 進行內核融合并編譯為 CUDA Graph 執行,消除了 PyTorch 框架的執行開銷,結合上述的多卡并行,可讓效率提升 200%。
  • 消除迭代之間的氣泡:采用循環展開 (Loop Unrolling) 技術,讓 Python 可以連續不斷地啟動 CUDA 內核,消除了迭代間的 GPU 空閑氣泡,帶來 5-10% 的性能提升 。
  • 早停:在生成 EOS token 后,跳過后續 block 的推理過程,可以減少 5-40% 不必要的開銷。

3.并行解碼:層級解碼 (Hierarchical) 與信用解碼 (Credit)

為了在保證生成質量的前提下,最大化并行解碼的 token 數量,dInfer 提出了兩種無需額外訓練的解碼算法 :

  • 層級解碼 (Hierarchical Decoding):該算法借鑒了「分治」思想,將待解碼的區域不斷遞歸地一分為二,并優先在每個子區域的中心位置解碼 token 。這種方式自然地拉開了新生 token 間的距離,減少了它們之間的語義干擾 。在理想情況下,它能以近似對數級的復雜度完成多點并行生成,既快又穩 。
  • 信用解碼 (Credit Decoding):在多輪迭代中,有些正確的 token 可能很早就被模型穩定地預測出來,但因其單次置信度未能「達標」而被反復重算 。dInfer 為此引入了「累積信用」機制,持續追蹤并累積每個 token 在歷史迭代中的置信表現 。一個長期被穩定預測的 token,即使當前置信度稍低,也能憑借高累積信用被「破格」解碼,從而有效避免了大量冗余計算 。

4.壓榨每步迭代價值:迭代平滑 (Iteration Smoothing)

傳統 dLLM 在每輪迭代中,只利用了置信度最高的 token 信息,而將其他位置的概率分布整個丟棄 。dInfer 的迭代平滑算法,旨在回收這些被浪費的信息 。

它基于未解碼位置的 logits 分布得到該位置的加權 Embedding,并將其作為寶貴先驗知識,平滑地融入下一輪迭代的 Embedding 中 。這極大地豐富了上下文信息,使得單次迭代解碼的 token 數量平均提升了 30-40%。

此外,由于 dInfer 可以無障礙地接入多種擴散語言模型,此次率先支持了基于軌跡蒸餾(Trajectory Distillation)加速 diffusion 去噪過程的 LLaDA-MoE-TD 模型,推理性能更強。

實測數據:里程碑式的性能飛躍

在配備 8 塊 NVIDIA H800 GPU 的節點上,dInfer 的性能表現令人矚目。

Figure2: 評測數據

  • 10 倍性能提升:在與先前的 dLLM 推理方案 Fast-dLLM 的對比中,dInfer 在模型效果持平的情況下,平均推理速度(avg TPS)實現了 10.7 倍的巨大提升(681 vs 63.6) 。
  • 超越自回歸:與在業界頂尖的推理服務框架 vLLM 上運行的、參數量和性能相當的 AR 模型 Qwen2.5-3B 相比,dInfer 的平均推理速度是其 2.5 倍(681 vs 277) 。
  • 突破推理極速:在代碼生成任務 HumanEval 上,dInfer 在單批次推理中創造了 1011 tokens / 秒的紀錄 。這是開源社區首次見證,擴散語言模型在延遲敏感的單批次推理場景下,速度顯著超越經過高度優化的自回歸模型。

更進一步,當結合軌跡蒸餾(Trajectory Distillation)技術(一種讓模型學會 「跳躍式」去噪的后訓練優化方法)后,dInfer 的平均推理速度飆升至 847 TPS,實現了超過 3 倍于 AR 模型的性能 。

開源開放:共建下一代 AI 推理新生態

dInfer 的誕生,不僅是一個工具的發布,更是一次 LLM 范式的試煉:它證明了擴散語言模型的效率潛力并非空中樓閣,而是可以通過系統性的創新工程兌現,使其成為 AGI 道路上極具競爭力的選項。

目前,dInfer v0.1 的全部代碼、技術報告與實驗配置已開源。

螞蟻希望 dInfer 能成為:

  • 研究者的標準平臺:為 dLLM 領域的算法創新提供一個公平、高效的試驗場 。
  • 開發者的加速引擎:助力社區將強大的 dLLM 輕松部署到實際應用中,享受極致性能 。

dInfer 連接了前沿研究與產業落地,標志著擴散語言模型從「理論可行」邁向「實踐高效」的關鍵一步。我們誠邀全球的開發者與研究者一同加入,共同探索擴散語言模型的廣闊未來,構建更加高效、開放的 AI 新生態。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-11 14:39:50

AILLMMistral

2025-12-02 08:45:00

2023-03-22 13:53:26

芯片英偉達

2025-05-30 15:52:05

訓練代碼推理

2018-12-06 10:07:49

微軟機器學習開源

2023-01-18 09:51:56

模型開源

2025-07-10 14:54:13

AI模型圖像生成

2024-02-26 07:43:10

大語言模型LLM推理框架

2022-12-23 10:50:20

模型開源

2025-08-04 08:23:00

2023-12-03 08:49:38

微軟開源

2022-07-18 17:37:27

字節跳動人工智能AI模型

2024-07-08 13:04:01

2025-02-27 09:09:45

2024-07-19 09:59:31

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-05-27 15:28:11

模型訓練AI

2025-11-06 08:45:00

AI語言模型算法

2025-06-18 16:39:02

視頻生成AI模型

2025-04-21 09:07:00

點贊
收藏

51CTO技術棧公眾號

欧美日韩四区| 黑人巨大精品欧美一区| 国产模特精品视频久久久久| 亚洲欧美另类在线| wwwjizzjizzcom| 毛片一级免费一级| 久久久亚洲国产| 91亚洲精品一区| av亚洲在线| 亚洲福利久久| 日韩欧美a级成人黄色| 91九色porn在线资源| 午夜在线播放视频欧美| 成人精品视频一区二区三区尤物| 久久97超碰色| 久久69av| 国产亚洲欧洲| 国产91丝袜在线播放| 99re成人精品视频| 亚洲欧美日韩天堂| 26uuu亚洲| 亚洲风情在线资源站| 欧美激情在线观看| 久久久久无码国产精品一区| 中文字幕免费高| 宅男深夜免费观看视频| 国产成人精品在线| 亚洲最大的成人网| 污污污污污污www网站免费| 2020色愉拍亚洲偷自拍| 日韩精品久久久久久久玫瑰园| 精品久久久久久中文字幕动漫| 精品久久久久久一区二区里番| 中文字幕伦理免费在线视频| 小泽玛利亚av在线| 天堂√在线中文官网在线| 久久人体av| 26uuu欧美| 色综合久久影院| 暖暖在线中文免费日本| 亚洲精品高清在线观看| 杨幂毛片午夜性生毛片| 岛国av一区| 一片黄亚洲嫩模| 久久久久久久少妇| 欧美丰满老妇| 国内自拍欧美激情| 亚洲一区电影| 国内免费精品永久在线视频| 狠狠久久伊人| 2020欧美日韩在线视频| 日韩美女精品| 欧美日韩一级视频| 青青草免费观看免费视频在线| 亚洲国产色一区| 国产美女在线播放| 免费一级片91| 久久99久久久久久久噜噜| 日本成人一区二区| 欧美成人精品一区| 91成人高清| 日韩一区二区免费在线电影| 五月婷婷在线视频| 精品三级av在线| 亚洲深夜视频| 欧美国产中文字幕| 欧美色婷婷久久99精品红桃| 亚洲精品一区二区精华| aa级大片免费在线观看| 综合网中文字幕| av在线免费观看网| 精品少妇一区二区三区免费观看| 日韩伦理精品| 一本大道久久精品懂色aⅴ| 男人天堂新网址| 久久免费看少妇高潮| 国产女主播在线| 色综合久久中文字幕综合网| 老司机av在线免费看| 欧美极品美女视频| 伊人75在线| 国产亚洲制服色| 天堂电影在线| 欧美一区二区福利视频| 最大av网站| 一区二区三区在线免费播放| 最新天堂中文在线| 大胆亚洲人体视频| 日韩av一区二区三区在线观看| 16—17女人毛片毛片| 99免在线观看免费视频高清| 精品乱人伦小说| 宅男噜噜噜66国产精品免费| 欧洲一区二区视频| 波多野结衣中文字幕久久| 亚洲国产精品自拍| 青草在线视频| 久久久久久久香蕉网| 欧美日韩爆操| 97视频在线免费| 精品久久中文字幕久久av| xxxx成人| 国产精品视频1区| 国产精品资源网| 韩国版免费三体| 精品福利二区三区| 日韩丝袜视频| 亚洲美女搞黄| 一区二区三区不卡视频| 国产免费拔擦拔擦8x在线播放 | 天堂va久久久噜噜噜久久va| 99精品偷自拍| 久久国产精品高清一区二区三区| 一区二区三欧美| 欧美91大片| 国产精品免费网站| 激情综合一区二区三区| 欧美h版电影| 亚洲人成网站777色婷婷| 婷婷综合视频| 国产日韩精品在线| 高清shemale亚洲人妖| 欧美偷拍视频| 海角国产乱辈乱精品视频| 久久精品导航| 欧美12一14sex性hd| 久久精品国产v日韩v亚洲| 天堂一区二区在线| 久久大香伊蕉在人线观看热2| 久久久久9999亚洲精品| 伊人福利在线| 亚洲综合国产精品| 亚洲黄色av一区| 精品一区二区三区四区五区| 亚洲精品在线观看免费| 欧美伊人精品成人久久综合97| 久久不见久久见国语| 国产精品成人av在线| 久久97视频| 国产不卡一区二区视频| 欧美一区二区三区视频免费播放 | 亚洲 日韩 国产第一区| 欧美午夜电影在线| 牲欧美videos精品| 国产黄色一级网站| 国产一区二区三区在线播放免费观看 | 高清在线观看免费| 亚洲精品720p| 久久精品网址| 无遮挡的视频在线观看| 亚洲自拍高清视频网站| 天天亚洲美女在线视频| 国产欧美日韩在线观看视频| 日本一本二本在线观看| 日韩性xxxx爱| 99久久99久久精品免费观看 | 99高清视频有精品视频| 亚洲日本激情| 日漫免费在线观看网站| 国产女人18毛片水18精品| 亚洲欧美乱综合| 同性恋视频一区| 国产va在线| 日本亚洲欧洲色| 亚洲免费观看在线观看| 欧美猛男男男激情videos| 高清av影院| 国产精品久久久久av| 亚州成人在线电影| 婷婷中文字幕一区| 在线观看国产原创自拍视频| 国产精品一区视频网站| 久久国产精品区| 久久男人天堂| 国产欧美日韩网站| 久久av中文字幕| 欧美成人高清| jizzjizz在线观看| 国产一区二区三区四区五区在线 | 日本道色综合久久影院| 亚洲精品日韩一| 日韩不卡一区| 正在播放国产精品| 日本一区二区三区四区在线视频| 国产亚洲1区2区3区| 国产成人免费在线观看不卡| 日韩在线欧美| 99久久er| 一本到不卡免费一区二区| 一区在线免费观看| 成人福利影视| 青娱乐自拍偷拍| 中文字幕一区二区三区欧美日韩| 国产欧美久久一区二区| 欧美天堂在线观看| 日韩精品高清不卡| 福利视频亚洲| 最新精品视频在线| 欧美成人video| 国产成人精品一区二|