56倍加速生成式策略:西交大提出EfficientFlow,邁向高效具身智能
本文共同第一作者為西安交通大學(xué)碩士生常建磊和博士生梅若風(fēng)。柯煒為西安交通大學(xué)副教授。論文通訊作者為西安交通大學(xué)教授許翔宇,其研究方向涵蓋三維視覺、生成式 AI 與具身智能(個人主頁:https://xuxy09.github.io/)。
生成式模型正在成為機器人和具身智能領(lǐng)域的重要范式,它能夠從高維視覺觀測中直接生成復(fù)雜、靈活的動作策略,在操作、抓取等任務(wù)中表現(xiàn)亮眼。但在真實系統(tǒng)中,這類方法仍面臨兩大「硬傷」:一是訓(xùn)練極度依賴大規(guī)模演示數(shù)據(jù),二是推理階段需要大量迭代,動作生成太慢,難以實時控制。
針對這一核心瓶頸,西安交通大學(xué)研究團隊提出了全新的生成式策略學(xué)習(xí)方法 EfficientFlow。該方法通過將等變建模與高效流匹配(Flow Matching)深度融合,在顯著提升數(shù)據(jù)效率的同時,大幅壓縮推理所需的迭代步數(shù),在多個機器人操作基準上實現(xiàn)了 SOTA 的性能,并將推理速度提升一個數(shù)量級以上。

相關(guān)論文《EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI》已被 AAAI 2026 接收,代碼已開源。

- 論文地址:https://arxiv.org/pdf/2512.02020
- 項目主頁:https://efficientflow.github.io/
- GitHub:https://github.com/chang-jl/EfficientFlow
技術(shù)亮點:用物理直覺重塑生成式策略
1. 加速度正則化:讓生成軌跡更直、更快
傳統(tǒng)流匹配的一大痛點是學(xué)習(xí)到的流場曲率過大,導(dǎo)致推理時仍需多步迭代才能擬合。
怎么讓生成軌跡變直? EfficientFlow 的設(shè)計靈感源于物理直覺:現(xiàn)實中平滑的運動,往往加速度很小。 因此,EfficientFlow 在損失函數(shù)中引入了加速度正則項,鼓勵樣本從噪聲分布向數(shù)據(jù)分布演化的過程也是平滑且接近勻速的:

其中
是正則化系數(shù)。在實踐中,采用
,在早期時間鼓勵更平滑的軌跡,而在
時則優(yōu)先考慮準確性。
加速度正則項可以近似為:

然而,該式難以直接計算,因為
和
位于同一條未知的流軌跡上。為克服這一困難,EfficientFlow 引入了流加速度上界(FABO):

其中,
和
來自同一個條件概率路徑,很容易通過采樣得到。
本質(zhì)上,F(xiàn)ABO 是一個易于計算且有效的代理損失。同時,上界 FABO 與原式的差值等效于
,可以看作對雅可比矩陣
的正則化,讓模型生成的策略更穩(wěn)、更魯棒。
2. 等變網(wǎng)絡(luò):讓模型學(xué)會「舉一反三」
EfficientFlow 等變設(shè)計的核心邏輯非常直觀:如果輸入的視覺場景旋轉(zhuǎn)了一定角度,那么機器人輸出的動作自然也該跟隨旋轉(zhuǎn)相同的角度。這帶來了巨大的數(shù)據(jù)優(yōu)勢,相當(dāng)于一條數(shù)據(jù)就可以產(chǎn)生多條數(shù)據(jù)的效果。模型只需學(xué)習(xí)物體在一個角度下的操作,就能自動泛化到多個旋轉(zhuǎn)角度,真正實現(xiàn)了「舉一反三」。

EfficientFlow 基于 escnn 庫構(gòu)建,將機器人在時間
的動作表示為一個 10 維向量
,包含 6D 旋轉(zhuǎn)表示、3D 平移向量和標量抓手寬度。動作輸出對應(yīng)的等變表示為:

這種表示使得
能夠生成遵循任務(wù)
對稱性的預(yù)測動作,從而確保在場景進行平面旋轉(zhuǎn)時行為的一致性。
等變網(wǎng)絡(luò)
的輸入是時間 t 、動作序列
和觀測
。模型將等變?nèi)涸O(shè)定為一個有限循環(huán)子群
,使用一個等變觀測編碼器將觀測
映射為嵌入
,使用一個等變動作編碼器將動作序列
映射為嵌入
,編碼后的嵌入
,
與時間 t 一起被輸入到等變神經(jīng)網(wǎng)絡(luò)中。得益于各部件的等變設(shè)計,模型實現(xiàn)了從原始輸入到預(yù)測動作的全流程
等變性。

3. 時間一致性策略:快,還要穩(wěn)
在生成動作序列時,由于相鄰的片段通常是獨立預(yù)測,策略可能會在不同的行為模式間切換,導(dǎo)致長期執(zhí)行過程中的不連貫。為了解決這個問題,EfficientFlow 采用 Diffusion Policy 中的時間重疊策略:每個預(yù)測序列僅執(zhí)行前
步,而剩余的
步則與從時間
開始的后續(xù)預(yù)測重疊。通過生成具有相似重疊部分的相鄰動作序列,可以實現(xiàn)長期的連貫性。
受 IMLE Policy 的啟發(fā),算法還采用了一種批量軌跡選擇與周期性重置策略,該策略在多模態(tài)表達能力與時間連貫性之間取得了平衡。在推理階段,EfficientFlow 從高斯分布中采樣 m 個初始噪聲向量
,并通過模型演化每一個向量,生成 m 條候選動作軌跡
。然后,選擇重疊片段與上一條軌跡匹配度最高的軌跡執(zhí)行。
為了保持模型探索多樣化行為的能力,模型引入了周期性重置:每 10 個預(yù)測周期,從批次中隨機選擇一條軌跡進行執(zhí)行,而不是選擇最小化重疊距離的那一條。這種方法在保持多模態(tài)性的同時提高了時間一致性,并且由于并行化處理,批量化設(shè)計確保了推理時間的額外開銷極小。
實驗效果:少數(shù)據(jù)、少步數(shù),也能打 SOTA
在 MimicGen 等多個機器人操作基準中,EfficientFlow 在有限數(shù)據(jù)條件下展現(xiàn)出媲美甚至超過現(xiàn)有 SOTA 方法的成功率。更關(guān)鍵的是推理效率:在 1 步推理下,EfficientFlow 就能接近 EquiDiff 100 步推理的平均性能,單步推理速度提升 56 倍,5 步推理也有近 20 倍加速。消融實驗進一步表明,加速度正則化與等變建模缺一不可,共同構(gòu)成了高效生成式策略的關(guān)鍵。



































