国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AAAI 2025 | 大模型推理加速新范式:加速比高達3.51倍、成本降至1/3

人工智能 新聞
論文中提出的 Falcon 方法是一種增強半自回歸投機解碼框架,旨在增強 draft model 的并行性和輸出質量,以有效提升大模型的推理速度。

近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。

論文中提出的 Falcon 方法是一種增強半自回歸投機解碼框架,旨在增強 draft model 的并行性和輸出質量,以有效提升大模型的推理速度。Falcon 可以實現約 2.91-3.51 倍的加速比,在多種數據集上獲得了很好的結果,并已應用到翼支付多個實際業務中。

圖片

論文地址:https://arxiv.org/pdf/2412.12639

1. 研究背景

大型語言模型 (LLMs) 在各種基準測試中展現了卓越的表現,然而由于自回歸 (AR) 解碼方式,LLMs 在推理過程中也面臨著顯著的計算開銷和延遲瓶頸。

為此,研究學者提出 Speculative Decoding (投機采樣) 方法。Speculative Decoding 會選擇一個比原始模型 (Target Model) 輕量的 LLM 作為 Draft Model,在 Draft 階段使用 Draft Model 連續生成若干個候選 Token。在 Verify 階段,將得到的候選 Token 序列放入到原始 LLM 做驗證 & Next Token 生成,實現并行解碼。通過將計算資源導向于驗證預先生成的 token,Speculative Decoding 大大減少了訪問 LLM 參數所需的內存操作,從而提升了整體推理效率。

現有的投機采樣主要采用兩種 Draft 策略:自回歸 (AR) 和半自回歸 (SAR) draft。AR draft 順序生成 token,每個 token 依賴于前面的 token。這種順序依賴性限制了 draft 模型的并行性,導致顯著的時間開銷。相比之下,SAR draft 同時生成多個 token,增強了 draft 過程的并行化。然而,SAR draft 的一個重要局限是它無法完全捕捉相同 block 內 draft tokens 之間的相互依賴關系,可能導致生成的 token 接受率較低。

因此,在投機采樣中,平衡低 draft 延遲與高推測準確性以加速 LLMs 的推理速度,是一個重大挑戰。

為此,翼支付提出了 Falcon,一個增強的半自回歸(SAR)投機解碼框架,旨在增強 draft model 的并行性和輸出質量,從而提升 LLMs 的推理效率。Falcon 集成了 Coupled Sequential Glancing Distillation(CSGD)方法,提高了 SAR draft model 的 token 接受率。

此外,Falcon 還設計了一種專門的 decoding tree 來支持 SAR 采樣,使得 draft model 可以在一次前向傳播中生成多個 token,并且也能夠支持多次前向傳播。這種設計有效提升 LLMs 對 token 的接受率,進一步加快了推理速度。

2. 研究方法

Falcon 的架構如圖 1 所示,可以看到,該半自回歸解碼框架主要由三個組件構成:Embedding Layer、LM-Head 和半自回歸解碼 Head

圖片

圖 1 Falcon 框架圖

具體來講,Falcon 將一個時間步長之前的連續特征序列和當前 token 序列連接起來,以同時預測接下來的 k 個標記。例如,當 k = 2 時,Falcon 使用初始特征序列 (f1, f2) 和提前一個時間步長的標記序列 (t2, t3) 來預測特征序列 (f3, f4)。隨后,將預測得到的特征 (f3, f4) 與下一個標記序列 (t4, t5) 連接,形成新的輸入序列。這個新輸入序列用于預測后續的特征序列 (f5, f6) 和標記序列 (t6, t7),從而促進 draft 過程的繼續。Draft model 多次 forward 之后生成的 token 被組織成樹結構,輸入到大模型中進行 verify,通過 verify 的 token 被大模型接收,并基于此基礎開始下一個循環。

2.1 Coupled Sequential Glancing Distillation

當前推測解碼方法的準確性相對較低,主要原因是 token 之間的上下文信息不足。CSGD 通過用真實 token 和 hidden states 替換一些初始預測來改善這一點,將正確信息重新注入解碼過程中,從而提高后續預測的準確性和連貫性。模型結構及訓練流程如下圖:

圖片

圖 2 CGSD 方法示意圖

在訓練過程中,一個時間步長之前的連續特征序列和當前 token 序列連接起來,并輸入到 draft model 中,形成一個融合序列,其維度為 (bs, seq_len, 2 * hidden_dim)。

draft model 由一個混合 Transformer 網絡組成,該網絡包括兩層 LSTM、Relaxed Causal-Masked 多頭注意力機制,以及 MLP 網絡。其中 LSTM 網絡將融合序列的維度減少到 (bs, seq_len, hidden_dim),并保留關于過去 token 的信息,從而提高模型的準確性。Relaxed Causal-Masked 多頭注意力機制能夠在保持因果關系的同時,專注于輸入序列的相關部分。MLP 層進一步處理這些信息,以做出最終預測。

當序列首次通過 draft model 后,會生成初始的 token 預測圖片。然后,我們計算 draft model 的預測與真實 token Y 之間的漢明距離,以此來衡量預測的準確性。接下來,我們將一定數量連續預測的 token 序列圖片和特征序列圖片替換為來自 LLMs 的正確 token 序列圖片和特征序列圖片

CSGD 與傳統的 glancing 方法不同,后者僅隨機替換 token。相反,CSGD 選擇性地同時替換預測之前的連續 token 和特征序列,如圖 2 中虛線框標注的 choice 1、choice 2、choice3 所示。這種方法增強了對 token 間的關系的理解,并確保 draft model 能夠有效利用提前時間步長的 token 序列,這在 SAR 解碼中尤為重要。隨后,修正后的 token 和特征序列被重新輸入到 draft model 中以計算訓練損失。

在訓練過程中,我們采用了知識蒸餾,損失函數包括 draft model 的輸出特征與真實特征之間的回歸損失以及蒸餾損失,具體的損失函數如下:

圖片


2.2 Custom-Designed Decoding Tree

當前基于樹的推測解碼方法通過在每個起草步驟生成多個 draft token 來提升推測效率。然而,這些方法仍然需要 draft model 按順序生成 token,這限制了推測效率的進一步提高。為了解決這一局限性,CDT (Custom-Designed Decoding Tree) 支持 draft model 在一次前向傳遞中生成多個 token (k 個),并且在每個 draft 步驟中支持多次前向傳遞。因此,與現有方法相比,CDT 生成的草稿標記數量是其 k 倍。

Draft model 多次 forward 之后,生成的 token 被組織成樹結構,輸入到大模型中進行 verify。LLM 使用基于樹的并行解碼機制來驗證候選 token 序列的正確性,被接受的 token 及其相應的特征序列會在后續繼續進行前向傳遞。在傳統的自回歸(AR)解碼中,使用因果掩碼,其結構為下三角矩陣。它確保了前面的 token 不能訪問后面的信息。

相比之下,Falcon 采用了一種 causal 因果掩碼 (如圖 3 所示),允許模型訪問同一 k*k 的 block 內的 token 以及相應的之前的連續 token。這一增強顯著提高了 drafter 生成 token 的效率,使 LLM 能夠同時驗證更多的 token,從而加快了 LLM 的整體推理速度。

圖片

圖 3 Custom-Designed Decoding Tree 方法示意圖

3. 實驗結果

我們在多個數據集和多個模型上進行了廣泛的實驗,驗證了本文方法的有效性。和現有的方法相比,Falcon 展現了優越的性能,具體如下圖:

圖片

圖 4 Falcon 實驗結果圖

4. 業務潛力

Falcon 大模型可以實現約 2.91-3.51 倍的加速比,相當于同等條件下推理成本下降至約原先的 1/3,從而大幅降低了大模型推理計算相關成本。

當前,Falcon 技術已轉化至翼支付大模型產品 InsightAI 平臺,并已服務諸如翼支付數字人客服、借錢-翼小橙、人力-翼點通、財務-翼小財等多個業務應用。

5. 總結

投機采樣是大模型推理加速的一個核心方法。當前,主要的挑戰是如何提升 draft model 的準確率、采樣效率,并提升大模型的驗證效率。文章提出了 Falcon 方法,一種基于增強半自回歸投機解碼框架。Falcon 通過 CSGD 這種訓練方法以及半自回歸的模型設計,顯著提升了 draft model 的預測準確率以及采樣效率。此外,為了讓大模型能驗證更多的 token,本文精心設計了一個 decoding tree,有效提升了 draft model 的效率,從而提升了驗證效率。Falcon 在多種數據集上可以實現約 2.91-3.51x 的加速比并應用到翼支付的眾多業務中,獲得了很好的效果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-01-05 09:33:37

視覺模型訓練

2025-07-14 09:14:00

2025-09-26 10:58:03

AI視覺語言模型

2024-02-20 13:13:00

模型訓練

2024-09-09 08:31:15

2023-11-30 18:25:57

數據訓練

2024-07-19 09:59:31

2025-06-26 09:06:59

2025-04-11 09:15:00

語言模型AI數據

2025-06-30 08:42:00

模型訓練AI

2025-06-09 09:32:35

2024-07-08 13:04:01

2024-01-24 13:11:00

AI模型

2023-11-19 23:36:50

2024-04-03 12:32:00

數據訓練

2022-06-01 16:47:53

AI模型開源

2025-05-16 08:44:01

2025-02-28 09:40:00

2022-03-14 10:53:12

谷歌模型研究

2024-03-25 13:04:00

AI模型
點贊
收藏

51CTO技術棧公眾號

成人免费视频91| 少妇一级淫免费放| a成人v在线| 成人免费在线视频观看| 成人av免费在线看| h视频久久久| 精品第一国产综合精品aⅴ| h片免费观看| 国产在线观看免费一区| 成人精品一区二区三区| 日韩av黄色| 精品免费日韩av| 欧美套图亚洲一区| 1024国产精品| 亚欧无线一线二线三线区别| 伊人影院久久| 日本久久久a级免费| 裤袜国产欧美精品一区| 这里只有精品电影| 一级片在线免费看| 亚洲婷婷综合色高清在线| 青草视频在线观看视频| 久久免费国产| 国产手机精品在线| 天天综合一区| 国产免费观看久久黄| 日韩成人午夜| 欧美丰满少妇xxxxx做受| 成人看片网页| 日韩精品在线视频美女| 中文字幕在线观看网站| 欧美视频在线不卡| 理论在线观看| 日本久久一区二区| 欧美高清电影在线| 欧美性色视频在线| 青青草观看免费视频在线| 粗大的内捧猛烈进出在线视频| 91在线精品观看| 大片网站久久| 国产精品777| 国产日产精品一区二区三区四区的观看方式 | 潘金莲一级淫片aaaaaa播放1| 国产精品99免费看| 91精品视频免费看| 欧美va天堂| 99视频在线| 亚洲激情自拍| 久草精品电影| 日韩精品乱码免费| 91制片厂免费观看| 成人av电影在线| 久久黄色免费看| 国产午夜精品一区二区三区视频| 国产无套内射久久久国产| 欧美韩国日本综合| 午夜av电影| 色综合色综合色综合| 日韩在线观看www| 亚洲成av人片在线观看香蕉| 欧美xxxx做受欧美护士| 久久亚洲精品毛片| 精品国产一区二区三区四区| 91久久久在线| 青青国产91久久久久久| 九九爱精品视频| 中文字幕亚洲在| 日韩av地址| 欧美精品一区二区三区久久久| 天堂av在线网| 欧美日韩成人在线播放| 五月国产精品| 精品国产一区二区三区日日嗨| 激情亚洲综合在线| 中文字幕 91| 色av成人天堂桃色av| 狼人综合视频| 欧美一级在线播放| 国产欧美日韩一级| 免费 成 人 黄 色| 亚洲不卡av一区二区三区| v片在线观看| 九色精品美女在线| 欧美日本不卡| 99热自拍偷拍| 一本大道久久a久久综合| www视频在线观看| 欧美一性一乱一交一视频| 亚洲二区免费| 国产资源在线视频| 精品久久久在线观看| 动漫一区二区| 国产91热爆ts人妖在线| 丝袜诱惑制服诱惑色一区在线观看 | 综合久久久久久| 91这里只有精品| 日韩视频一区在线| 女生裸体视频一区二区三区| 玖玖精品在线视频| 亚洲国产中文字幕| 日本成人伦理电影| 91黄色精品| 久久久噜噜噜久久中文字幕色伊伊 | 欧美日韩一区二区视频在线观看| 91香蕉视频黄| 性开放的欧美大片| 麻豆乱码国产一区二区三区| 欧美色图麻豆| 农村妇女精品一二区| 欧美一二三在线| 最新国产一区| 日韩免费在线观看av| 色www精品视频在线观看| 国产精品亚洲四区在线观看| 精品一区二区三区国产| 中文字幕亚洲视频| 国产精品久久久久久久久免费高清 | 亚洲视频久久| 成人三级av| 日韩精品亚洲元码| 久久久久久久久久久妇女| 欧美极品欧美精品欧美图片| 91精品国产美女浴室洗澡无遮挡| 中文字幕精品影院| 国产午夜大地久久| 精品国产三级a在线观看| 婷婷另类小说| 97视频免费| 久久精品亚洲94久久精品| 日韩国产成人精品| av网站大全在线观看| 国产xxx69麻豆国语对白| 99久久精品免费看| av免费在线视| 欧美二区在线看| 色8久久人人97超碰香蕉987| 欧美日韩国产在线观看网站| 日韩一级理论片| 日韩有码在线视频| 国产精品资源站在线| 黄页网站在线| 欧美一级日本a级v片| 91福利在线导航| 日本久久精品| 夜夜嗨aⅴ免费视频| 欧美黑人巨大精品一区二区| 成人免费毛片嘿嘿连载视频| wwww亚洲| 亚洲欧美国产精品桃花| 日韩精品专区在线影院观看| 亚洲激情偷拍| 日韩在线免费电影| 国产欧美亚洲日本| 欧美日韩精品一区二区| 亚洲视频日本| 91福利在线视频| 精品国产福利| 欧美日韩免费视频| 亚洲欧美bt| h片视频在线观看| 制服国产精品| 亚洲午夜国产成人av电影男同| 国产美女视频一区| 2019年精品视频自拍| 国产freexxxx性播放麻豆| 亚洲人成网站777色婷婷| 免费av网站大全久久| 成年人在线网站| 日韩精品久久一区二区| 中文字幕日韩综合av| 99视频在线精品| 91亚洲无吗| 最新91在线| 九9re精品视频在线观看re6| 欧美一区二区国产| 国产激情偷乱视频一区二区三区| 精品欧美日韩精品| 日本www.色| 国产精品一二三在线| 色呦呦国产精品| 日本一区中文字幕| 8av国产精品爽爽ⅴa在线观看| 免费男同深夜夜行网站| 国产91精品视频在线观看| 五月综合激情日本mⅴ| 一区二区视频欧美| 多野结衣av一区| 国产三区在线视频| 国产成人aa精品一区在线播放| 欧美日韩国产精品一区| 久久一区二区三区超碰国产精品| 日韩福利一区| 国产在线视频你懂| 久久草.com| 久久色精品视频| 天天综合网 天天综合色| 久久久久久久欧美精品| 亚洲日本中文| 五月激情在线| 91传媒免费视频|