網(wǎng)絡(luò)頂會(huì)獲獎(jiǎng)!華為提出端網(wǎng)協(xié)同RDMA傳輸架構(gòu),解決大規(guī)模AI集群網(wǎng)絡(luò)可擴(kuò)展性問(wèn)題
上周,第 39 屆 ACM SIGCOMM 大會(huì)近日在葡萄牙落下帷幕,來(lái)自世界各地的技術(shù)大牛分享了計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域最前沿的技術(shù),為本領(lǐng)域的從業(yè)者貢獻(xiàn)了一場(chǎng)頂級(jí)的技術(shù)盛宴。ACM SIGCOMM 是網(wǎng)絡(luò)領(lǐng)域最頂級(jí)的學(xué)術(shù)會(huì)議,對(duì)論文的質(zhì)量要求極高,不僅有很強(qiáng)的學(xué)術(shù)性,也與產(chǎn)業(yè)界聯(lián)系緊密,吸引全世界各大 OTT 和網(wǎng)絡(luò)設(shè)備廠商等熱情參與。

本屆 SIGCOMM 投稿共 463 篇,錄用 75 篇,接收率僅 16.2%,全球僅 3 篇論文獲獎(jiǎng)。華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室與香港科技大學(xué) iSING Lab 合作的新型 RDMA 傳輸架構(gòu) DCP,獲本屆大會(huì) Best Student Paper Award (Honorable Mention),成為亞洲地域唯一的獲獎(jiǎng)?wù)撐摹T撜撐奶岢龅臄?shù)控分離傳輸架構(gòu) DCP,解決大規(guī)模 AI 集群網(wǎng)絡(luò)可擴(kuò)展性難題,幫助構(gòu)建大規(guī)模、高性能、高可靠的網(wǎng)絡(luò)底座,充分釋放 AI 算力。
該論文體現(xiàn)出華為公司在網(wǎng)絡(luò)領(lǐng)域的深厚積累。除此獎(jiǎng)項(xiàng)之外,華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室近幾年曾在多個(gè)國(guó)際頂級(jí)會(huì)議獲獎(jiǎng),包括 Hot Interconnects 2024 最佳學(xué)術(shù)論文獎(jiǎng)、FSE 2024 杰出論文獎(jiǎng)等。UB-Mesh 超節(jié)點(diǎn)網(wǎng)絡(luò)架構(gòu)近期在 Hot Chips 2025 發(fā)表,在業(yè)界引起廣泛關(guān)注。

論文標(biāo)題:Revisiting RDMA Reliability for Lossy Fabrics
論文地址:https://dl.acm.org/doi/pdf/10.1145/3718958.3750480
一、背景:算力激增驅(qū)動(dòng)智算網(wǎng)絡(luò)規(guī)模不斷增大,現(xiàn)有傳輸技術(shù)面臨挑戰(zhàn)
AI 大模型快速發(fā)展,算力需求急速攀升,驅(qū)動(dòng)集群網(wǎng)絡(luò)組網(wǎng)規(guī)模不斷擴(kuò)大,通信距離也不斷拉遠(yuǎn)。單一集群需要園區(qū)內(nèi)多棟樓部署,同時(shí)受到部署策略、走線等物理因素限制,最大通信距離可達(dá)到 2km-10km;如果要規(guī)劃更高的算力規(guī)模,供電、散熱等能源問(wèn)題會(huì)成為瓶頸,需要多集群聯(lián)合訓(xùn)練,跨 AZ 場(chǎng)景最大通信距離可達(dá)到百公里。
當(dāng)前智算網(wǎng)絡(luò)大多沿用已有數(shù)據(jù)中心技術(shù),主要的技術(shù)路線是基于 PFC 流控的無(wú)損 RDMA 網(wǎng)絡(luò)。但隨著組網(wǎng)規(guī)模的進(jìn)一步增大,PFC 帶來(lái)的頭阻、死鎖、運(yùn)維等問(wèn)題會(huì)更凸顯,嚴(yán)重影響網(wǎng)絡(luò)性能。另外,在交換機(jī)交換容量增大、交換芯片 Buffer 增長(zhǎng)速度滯后等趨勢(shì)下,該路線將會(huì)面臨 Buffer 不足的問(wèn)題。與此同時(shí),業(yè)界也一直在探索高效的有損 RDMA 路線,例如在 RDMA 網(wǎng)卡 (RNIC) 中實(shí)現(xiàn)選擇性重傳機(jī)制。然而這條路線仍然面臨 ECMP 沖突、RTO 超時(shí)等問(wèn)題,并且對(duì)多路徑、逐包均衡等技術(shù)兼容性不好。
針對(duì)上述問(wèn)題,文章提出了 DCP(Data Control Partitioning)數(shù)控分離技術(shù),重構(gòu)了高速有損網(wǎng)絡(luò)的 RDMA 可靠性設(shè)計(jì),推動(dòng)智算網(wǎng)絡(luò)向容損、逐包均衡等方向演進(jìn)。該方案對(duì)控制信息和數(shù)據(jù)信息采用不同傳輸策略,對(duì)數(shù)據(jù)信息允許有損傳輸,對(duì)控制信息采用無(wú)損傳輸,可以大大降低對(duì) Buffer 的依賴,徹底消除 PFC 帶來(lái)的頭阻、死鎖等問(wèn)題,同時(shí)兼容多路徑傳輸、逐包均衡等技術(shù),支持百萬(wàn)卡規(guī)模、百公里等大規(guī)模、長(zhǎng)距離、高性能網(wǎng)絡(luò)傳輸?shù)男枨蟆?/span>
二、DCP 設(shè)計(jì)思路
DCP 是一種聯(lián)合設(shè)計(jì)交換機(jī)和 RNIC 的傳輸架構(gòu),包含 DCP-Switch 和 DCP-RNIC。DCP 概念上定義了數(shù)據(jù)平面(DP)用于有效載荷傳輸和控制平面(CP)用于報(bào)文頭部傳輸。與無(wú)損 RDMA 網(wǎng)絡(luò)通過(guò) PFC 同時(shí)保證 DP 和 CP 的無(wú)損性不同,DCP-Switch 引入 Packet Trimming 功能,每當(dāng)網(wǎng)絡(luò)出現(xiàn)丟包時(shí),會(huì)把丟失報(bào)文的頭部封裝成 Header-Only(HO)報(bào)文傳輸給接收端;DCP-Switch 使用加權(quán)輪詢(WRR)調(diào)度器來(lái)優(yōu)先處理控制隊(duì)列,從而確保控制平面(CP)傳輸?shù)臒o(wú)損性,同時(shí)允許數(shù)據(jù)平面(DP)以有損方式運(yùn)行。

同時(shí),DCP-RNIC 利用無(wú)損控制平面的特性來(lái)增強(qiáng) RNIC 的可靠性,實(shí)現(xiàn)了以下幾項(xiàng)關(guān)鍵功能:
- Precise and Fast HO-based Retransmission:發(fā)送方根據(jù) HO 包攜帶的 PSN 精確并高效地重傳丟失的包;
- Order-tolerant Packet Reception:接收端 RNIC 可以直接將任何包(無(wú)論是有序還是亂序)寫入其相應(yīng)的應(yīng)用程序內(nèi)存地址,消除了對(duì)重排序緩沖區(qū)的需求;
- Bitmap-free Packet Tracking:DCP-RNIC 利用無(wú)損 CP 的 “Exactly Once” 特性,消除了包級(jí)別 bitmap 的需求,采用包計(jì)數(shù)來(lái)跟蹤聚合的消息級(jí)信息,顯著減少了內(nèi)存開銷和處理周期。
三、實(shí)驗(yàn)效果
文章針對(duì) DCP 進(jìn)行了全面的技術(shù)驗(yàn)證,主要包括兩部分:1)原型樣機(jī)測(cè)試(含 DCP-Swtich 和 DCP-RNIC);2)大規(guī)模仿真實(shí)驗(yàn)。

原型樣機(jī)測(cè)試結(jié)果:組網(wǎng)拓?fù)淙缟蠄D所示,DCP 傳輸技術(shù)與逐包負(fù)載均衡原生適配,相較于 Mellanox RNIC,DCP 在丟包恢復(fù)效率上提高了 1.6×~72×,在 AI 工作負(fù)載的完成時(shí)間上降低了 42%;相較于 IRN 和 MP-RDMA,DCP 在通用負(fù)載測(cè)試上分別取得了 2.1× 和 1.6× 的性能提升。此外, DCP 在 10 公里長(zhǎng)距測(cè)試下實(shí)現(xiàn)了接近理想的高吞吐,DCP 理論上可實(shí)現(xiàn)百公里高性能傳輸。

仿真實(shí)驗(yàn)結(jié)果:組網(wǎng)拓?fù)淙缟蠄D所示,DCP 傳輸技術(shù)相較于 MP-RDMA 和 IRN(業(yè)界 SOTA 的 lossless 和 lossy 傳輸解決方案),在智算流量場(chǎng)景(如 AllReduce)下,平均降低了 38% 和 45% 的任務(wù)完成時(shí)間 JCT(如下圖 a 所示);在通算流量場(chǎng)景下,分別降低了 16% 和 10% 的 P95 尾部流完成時(shí)間 FCT。此外,在 1000 公里長(zhǎng)距大規(guī)模實(shí)驗(yàn)中,相較于 MP-RDMA 和 IRN 方案,DCP 分別降低了 95% 和 51% 的 P95 尾部完成時(shí)間(如下圖 d 所示)。

四、總結(jié)
華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室提出的 DCP 技術(shù),是一種面向有損網(wǎng)絡(luò)的高性能 RDMA 傳輸架構(gòu),通過(guò)將輕量級(jí)無(wú)損控制平面與硬件高效的 RNIC 設(shè)計(jì)相結(jié)合,消除了對(duì) PFC 的依賴,支持包級(jí)負(fù)載均衡,并避免了 RTO。原型和仿真表明,DCP 的性能顯著優(yōu)于現(xiàn)有的 RDMA 解決方案,有利于推進(jìn)高性能 RDMA 傳輸技術(shù)在有損網(wǎng)絡(luò)中的應(yīng)用。
經(jīng)了解,華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室在研究面向 AI 原生的傳輸技術(shù) AI-Native Transport(ANT),通過(guò)逐包均衡 / 多路徑、算效優(yōu)先調(diào)度、容損傳輸?shù)燃夹g(shù),為 AI 智算網(wǎng)絡(luò)提供高吞吐、高算效、高可擴(kuò)展的傳輸能力,本次 SIGCOMM 文章的 DCP 技術(shù)是 ANT 若干特性之一。























