国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

僅需15%全量Attention!「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案來了

人工智能 新聞
阿里 RTP-LLM 團隊提出了一種全新的后訓練壓縮方案:RTPurbo。

為什么大模型廠商給了 128K 的上下文窗口,卻在計費上讓長文本顯著更貴?

為什么 Claude 能 “吞下整本書”,但官方示例往往只展示幾千字的文檔?

為什么所有大模型廠商都在卷 “更長上下文”,而真正做落地的產品經理卻天天琢磨 “怎么把用戶輸入變短”?

這些看似矛盾的現象,其實答案藏在一個長期被技術光環遮掩的真相里:

長序列,正在成為大模型應用里最昂貴的奢侈品。

在當前主流的 Full Attention 機制下,計算開銷會隨著輸入長度平方增長,序列一長,處理就變得 “又貴又慢”(見圖 1)。針對這一核心難題,阿里 RTP-LLM 團隊提出了一種全新的后訓練壓縮方案:RTPurbo。在不損失模型效果的前提下,實現了 Attention 計算 5 倍壓縮(見圖 2)。

左圖 1:長序列 Attention 計算成本瓶頸;右圖 2:RTPurbo 極大降低 Attention 計算開銷

總的來說, RTPurbo 采用了一種非侵入式的壓縮方法:通過分辨 LLM 內部的長程 Attention Head,僅保留關鍵 Head 的全局信息,對于剩下冗余的 Head 直接丟棄遠程 Tokens。這種 Headwise 級別的混合算法以其簡潔的方案設計和優越的算子兼容性,極大地降低了大模型在長序列下的推理代價,為新一代 LLM 結構設計提供了一個新的視角和演進方向。

目前,項目模型與推理代碼已經發布至 Huggingface、ModelScope 平臺,感興趣的讀者可以閱讀 RTP-LLM 相應的技術 blog 了解更多細節。

  1. https://huggingface.co/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo 
  2. https://modelscope.cn/models/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo

圖 3:RTPurbo 采用混合壓縮方案,僅有少數 Attention Head 使用全量 Attention)

化繁為簡,被低估的 SWA

針對 Attention 壓縮,目前業界的主流方案大致可以分為兩種:Linear Attention 和 Sparse Attention。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 為代表,本質上是通過改進后的 Linear Attention 來實現信息壓縮,使得存儲代價壓縮到,計算代價壓縮到;而 Sparse Attention 則主要通過稀疏化來優化計算開銷,實踐中往往能夠達到接近 90% 以上的稀疏度,這也是在 DeepSeek-V3.2 中被正式采用的技術路線。

但在真實落地中,這兩條路線都有較明顯的共性代價:一方面,它們通常強依賴大量后訓練,工程實現與適配成本也更高;另一方面,Linear Attention 在壓縮信息后,長序列下的召回能力顯著弱于 Full Attention [1],因此往往需要與 Full Attention 混合使用,帶來性能與加速收益的雙重上限。此外,Linear / Sparse Attention 的算子與調度設計相對復雜,也進一步影響其在工程生態中的通用性、可維護性與一致性。也正因如此,一些前期工作 [2] 反而把目光投向看似 “簡單粗暴” 的 Sliding Window Attention(SWA),例如 gpt-oss 和 MiMo ,這在一定程度上說明 SWA 并非 “權宜之計”,而是一種可規?;瘡陀玫墓こ踢x擇。

在進一步分析現有 LLM 的注意力模式后,團隊觀察到一個更細粒度的關鍵現象:絕大多數 Attention Head 天然更偏好局部信息,只有極少數 “長程頭” 能在長文本中穩定地定位并召回關鍵關聯信息。基于這一現象,團隊提出了一個關鍵假設:

類似人類的閱讀與寫作過程,LLM 在處理長文本時,往往會先從長上下文中 “召回” 相關信息,再在相對局部的上下文范圍內完成推理并輸出答案。

換句話說,模型內部可能只有少量 Attention Head 真正在承擔 “信息召回” 的職責:它們通過注意力機制把遠距離信息搬運到當前的 Residual Stream(信息通道)中,讓后續層可以在更局部、更高信噪比的狀態下完成推理。這也直接意味著:對于那些并不承擔長程依賴的 Attention Head,其實并不需要使用 Full Attention—— 長序列場景存在可觀的壓縮空間。

為了驗證這一假設,團隊設計了一個直觀的對比試驗:

  1. 方案一:只有 15% 的長程頭使用 Full Attention,剩余 85% 使用 SWA;
  2. 方案二:15% 的長程頭使用 SWA,剩余 85% 使用 Full Attention。

如表 1 所示,盡管方案二保留了 85% 的 KV cache,但是其長文能力仍然顯著劣于方案一。

表 1:方案一只用 15% 的 Full Attention,長文效果顯著優于方案二

進一步地,在不做任何微調的情況下,方案一在長文本指標上也非常有競爭力(表 2),幾乎無損:

表 2:方案一不經過訓練,在 Ruler 上無損

不過,在某些特定的長文任務上,未經微調的壓縮模型仍會出現明顯的性能退化(見表 3)。其根源在于:壓縮前后注意力模式的直接切換會對模型輸出造成一定擾動,需要額外訓練來 “消化” 這種變化。

表 3:方案一在特殊 benchmark 上仍然存在顯著負向

因此,為實現更接近 “無損” 的壓縮,團隊進一步提出了一個面向 RL 后模型的壓縮訓練范式:在不依賴高質量標注數據的前提下,僅通過輕量級微調,就能顯著提升壓縮后模型在長文任務上的表現。

自蒸餾,從根本上解決數據問題

當前主流 LLM 通常采用 “預訓練 + 后訓練 + RL” 的訓練范式,如果直接使用長文 SFT / 預訓練語料進行續訓,會帶來兩方面挑戰:

  1. RL 后模型在經過 SFT 會出現過擬合甚至災難性遺忘,損傷短文本任務上的原有能力(見表 4);
  2. 高質量的長文本語料難以獲取。

表 4:Qwen3-30B-A3B-Instruct RL 后模型繼續 SFT 會過擬合,造成災難性遺忘

為解決這兩點,RTPurbo 使用 “模型自蒸餾” 作為關鍵訓練策略:讓壓縮后的模型對齊原模型輸出,從而同時化解數據與能力保留問題:

  1. 僅對模型自身的輸出進行對齊,避免依賴特定領域的問答數據,從而確保短文本下游指標基本無損;
  2. 只需使用長文本預訓練語料即可完成訓練,使模型快速適應 headwise 稀疏的工作模式。

實測中,僅使用約 1 萬條 32k 長度的預訓練語料(訓練時間小時級),RTPurbo 就能讓長文任務表現與原模型持平。

結果對比

在長文本測試場景下,RTPurbo 僅保留約 15% 的 Attention Heads 使用 Full KV cache,壓縮后的 Qwen-Coder-Plus、Qwen3-30B-A3B-Instruct 在多項長文指標上可與未壓縮模型齊平,充分驗證了壓縮后模型的精度保障。

更重要的是,這種壓縮并非以犧牲通用能力為代價。在多項短文本(通用)Benchmark 上,采用自蒸餾范式訓練后的模型并未出現性能衰減,原有對話、推理和代碼理解等能力都得到了良好保留。

這表明,RTPurbo 不僅是一種單一模型的 “特定優化技巧”,而是一套具有良好可遷移性和通用性的長序列加速方案,可為更大規模、更多架構的 LLM 提供高性價比的推理加速路徑。

從大模型可解釋性到 LLM 壓縮

早期可解釋性工作 [3] 已指出:模型內部存在很強的 “召回” 機制,一部分特定 Attention Head 能穩定定位前文相關信息。團隊成員的前期工作 [2] 也觀察到這些 Head 在長文場景仍保持類似行為。

與此同時,在 [4] 中,作者指出 Softmax 本身在長序列存在熵增的問題。更具體的,隨著序列變長,每個 Token 的注意力不可避免的變得更加彌散(信噪比降低),如下圖所示:

圖 4:Attention 在長序列下存在信噪比下降的問題

因此,為了避免遠程信息干擾模型本身的推理能力,LLM 內部實現了一種非常巧妙的機制:

  • 多數 Head 只處理局部信息,以獲得更高信噪比;
  • 少數 Head 負責從遠處 “召回” 關鍵信息并搬運到當前位置,使后續層能在局部范圍內完成推理。

這與 RTPurbo 的 headwise 設計高度一致:把 “全局召回” 能力集中保留給少量關鍵 Head,其余 Head 則用工程收益更穩定的 SWA 來承載。

RTP-LLM:RTPurbo 在長文上的極致性能優化

圖 5:RTPurbo HeadWise Attention 性能加速結果,圖上結果僅使用 15% 的 Full Attention

RTPurbo 按固定比例劃分 SWA Head 與 Full Head 雖然直觀有效,但工程上必須解決一個問題:不同 Head 計算模式與計算量不一致,會導致負載不均衡,影響 GPU 并行效率與端到端吞吐。

為此,RTP-LLM 圍繞該不均衡在算子層與框架層做了針對性優化,核心包括:

  • Full Attention Head 的 PTX 級優化:對仍需全量計算的 Full Head 深入 PTX 指令層,利用 gmma::mma_async_shmA 等異步拷貝與矩陣乘指令提升效率;融合 IO warps 與 P/V 計算階段,優化 Ping-Pong 流水與調度,減少空轉等待。
  • 稀疏度感知的負載均衡調度:針對 Tail Latency,采用稀疏度感知動態調度(如反向拓撲排序),優先分配重 tile 給 SM,使各 SM 更同步完成任務,降低尾延遲、提升吞吐。
  • SWA 的高效實現:避免傳統 SWA 常見的 “三段式 KV 拼接” 或 “Custom Mask” 做法(訪存與調度開銷大),通過重塑數據布局與計算路徑減少冗余訪存與額外算子開銷。
  • 用 CP(Context Parallel)替代 TP(Tensor Parallel):在 headwise 稀疏場景下,TP 易導致算力利用率低且不夠靈活;采用 CP 讓單卡完成全部 head 的 attention 計算,提高 GPU 利用率,并通過計算 - 通信重疊降低通信開銷。

綜合以上優化,RTP-LLM 能將 Attention 稀疏帶來的理論收益穩定、可復現地轉化為端到端加速;在 256k 長序列下實現單算子最高 9× 加速(見圖 5,圖中僅 15% Head 使用 Full Attention)。

團隊介紹

RTP-LLM 是阿里巴巴智能引擎團隊自研的高性能大模型推理引擎,支持了淘寶、天貓、高德、餓了么等核心業務的大模型推理需求。智能引擎源自阿里巴巴搜索、推薦和廣告技術,是阿里 AI 工程領域的先行者和深耕者。團隊專注于 AI 工程系統的建設,主導建立了大數據 AI 工程體系 AI?OS,持續為阿里集團各業務提供高質量的 AI 工程服務。

RTP-LLM 項目已開源,歡迎交流共建: https://github.com/alibaba/rtp-llm

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-14 01:00:00

2025-06-06 09:12:53

2025-03-12 09:35:45

2025-04-30 10:59:04

2025-08-19 16:10:46

AI模型開源

2025-04-29 08:14:14

2025-06-06 14:32:20

阿里開源Qwen3

2025-04-30 02:00:00

2025-07-11 08:54:00

2023-10-14 15:22:22

2025-04-30 09:11:15

2025-04-30 07:26:04

2025-05-06 00:35:33

2025-07-31 09:06:00

2024-04-03 12:32:00

數據訓練

2025-04-29 10:39:46

2025-07-22 10:43:25

2025-04-30 14:12:36

Qwen3AgentMCP

2025-11-05 09:00:29

2025-09-04 01:00:00

大模型Qwen3AI
點贊
收藏

51CTO技術棧公眾號

中文字幕欧美日韩一区二区三区 | 性欧美长视频| www亚洲欧美| 怡红院在线播放| 亚洲国产高清不卡| 丁香六月激情婷婷| 国产美女精品| 成人欧美视频在线| 综合视频在线| 国产日韩在线视频| 日韩1区在线| 日韩免费在线播放| 色婷婷av一区二区三区丝袜美腿| 美女撒尿一区二区三区| 4438五月综合| 日韩中文字幕在线免费观看| 欧美成人精品三级网站| 亚洲欧美精品中文字幕在线| 在线最新版中文在线| 日韩乱码在线视频| 少妇视频一区| 亚洲人在线视频| 欧美日韩国产网站| 久久综合伊人77777尤物| 欧美成年网站| 午夜精品福利视频| 国产麻豆精品久久| 国产精品激情av在线播放| 伊人春色精品| 成人网页在线免费观看| 精品成人免费| 色涩成人影视在线播放| 欧美全黄视频| 国产精品福利观看| 高清hd写真福利在线播放| 欧美在线日韩| 亚洲精品国产品国语在线app| 精品成人私密视频| 亚洲自拍偷拍网址| 欧美特黄一区| 欧美成ee人免费视频| 免费成人性网站| 每日在线观看av| 国产精品毛片高清在线完整版| 77777在线| 久久精品国产亚洲一区二区三区| 国产 日韩 欧美| 亚洲第一福利网站| 亚洲国产欧美日本视频| 少妇高潮 亚洲精品| 菁菁伊人国产精品| 成人久久精品视频| 日韩精品1区2区3区| 国产精品又粗又长| 亚洲午夜激情av| 欧美精品18videos性欧美| 久久免费资源| 国产精品久久久久久久久久ktv| 午夜精品999| 国产成年人在线观看| 国产精品视频yy9299一区| 中文字幕网在线| 日韩欧美视频在线| 中文字幕一区二区三区四区久久 | 欧美成人三区| 久久综合国产精品台湾中文娱乐网| 精品久久久亚洲| 亚洲mv在线看| 亚洲在线成人精品| 天堂在线中文网官网| 国产精品96久久久久久| 三级在线观看一区二区| 亚洲高清免费在线观看| 欧美一区二区三区在线视频| 国产免费区一区二区三视频免费| 国产 高清 精品 在线 a | 精品三级在线| 亚洲精品女av网站| youjizz国产精品| 你懂的视频在线播放| 久久久国产视频91| 久久www成人_看片免费不卡| 亚洲jizzjizz妇女| 日韩精品久久久久 | 日本亚洲天堂网| 毛片视频免费观看| 日韩成人激情视频| 一区二区三区四区在线观看国产日韩 | 国产精品果冻传媒潘| 国产视频在线观看一区二区三区| 国产激情视频在线| 91精品国产综合久久香蕉最新版 | 中文在线播放一区二区 | 国产精品嫩草视频| 国产成人av影院| 国产youjizz在线| 国内精品国产三级国产在线专| 男女视频一区二区| 亚洲人成电影| 2019精品视频| av综合在线播放| 久热在线观看视频| 精品一区二区三区日本| 亚洲欧美日韩在线| 精品国产不卡一区二区| 异国色恋浪漫潭| 777奇米成人网| 欧美美女在线| 玩弄japan白嫩少妇hd| 亚洲精品久久久久中文字幕欢迎你 | 精品91福利视频| 在线国产精品网| 制服丝袜成人动漫| 综合激情一区| 黄色三级电影网| 久久久免费精品| 久久综合一区二区| 欧美成人性网| 26uuu成人| 精品香蕉一区二区三区| 久久精品国产99| а_天堂中文在线| 日韩国产美国| 精品三级av在线| 蜜臀av亚洲一区中文字幕| 成人av黄色| 欧美精品v日韩精品v国产精品| 91黄视频在线观看| 日韩欧美中字| 中文在线а√天堂官网| 国产精品美女免费视频| 一区二区国产视频| 国产成人3p视频免费观看| 成人看片app| 日本在线观看天堂男亚洲| 亚洲精品视频一区二区| 免费不卡中文字幕在线| 导航福利在线| 成人91视频| 日韩精品一区二区三区在线 | 国产精品―色哟哟| 国产suv精品一区| 久久.com| 成人高清免费观看| 懂色av一区二区| aa免费在线观看| 97精品免费视频| 欧美另类久久久品| 91嫩草亚洲精品| 在线播放你懂的| 草草久久久无码国产专区| 26uuu精品一区二区在线观看| yy6080久久伦理一区二区| 又粗又黑又大的吊av| 久久97久久97精品免视看| 亚洲女爱视频在线| 爽成人777777婷婷| 色网站在线看| 法国空姐在线观看免费| 精品国产一区二区三区四区在线观看 | 在线观看亚洲视频啊啊啊啊| 亚洲小视频在线观看| 国产欧美日韩另类一区| 欧美日韩亚洲在线观看| 国产在线一二三区| 日韩资源av在线| 日韩在线视频国产| 亚洲天堂久久久久久久| 国产精品激情电影| 在线播放高清视频www| 欧美色图另类小说| 国产精品啪视频| 日韩精品一区二区三区视频在线观看 | 岛国精品在线播放| 亚洲免费专区| 成人日韩欧美| 热久久精品国产| 成人写真福利网| 日韩大片在线观看视频| 国产精品萝li| 在线亚洲免费| 亚洲精品一二三**| 大片免费播放在线视频| 日韩在线视频在线| 国产精品福利网站| 亚洲国产成人精品电影| 亚洲蜜臀av乱码久久精品蜜桃| 午夜一级久久| 天堂日韩电影| 欧美aa在线观看| 国产激情视频网址| 黄色www在线观看| 国产精品嫩草影院一区二区| 国产婷婷成人久久av免费高清| 亚洲精品欧美综合四区| 蜜桃视频第一区免费观看| 亚洲老女人视频免费| 最新欧美色图| 成人高清网站| 九色porny自拍|