華為世界模型來了！單卡30分鐘生成272㎡場景

2025-10-29 09:03:20

華為聯合上海交通大學、華中科技大學推出了世界模型WorldGrow，可以生成1800㎡超大室內場景（19x39塊），單卡30分鐘就跑了272㎡。

AI大house真來了。

華為聯合上海交通大學、華中科技大學推出了世界模型WorldGrow，可以生成1800㎡超大室內場景（19x39塊），單卡30分鐘就跑了272㎡。

里面的虛擬人還能順暢導航，不帶迷路的。(小聲說：大平層確實需要導航)

并且場景具備連貫的幾何拓撲和照片級真實感外觀，智能體的導航則是在復雜空間布局中自主規劃路徑。

這可以說是走到哪建到哪了，那場景是怎么搭的？

具備連貫的幾何拓撲和照片級真實感外觀

以前想造個像樣的3D大場景，坑不少。

比如有些技術先靠2D模型畫張圖，再硬掰成3D，結果換完視角一看，沙發腿歪了、墻壁紋理斷了……

還有一些方法最多只能造單個房間，擴展成套房就卡殼；更離譜的是沒有布局邏輯——出現冰箱塞進臥室，床擺在廚房的情況。

現在，WorldGrow來搞裝修了（bushi），用三個核心技術填坑。

第一步是先做數據精準預處理，從3D-FRONT這類大規模數據集里提取優質樣本，用Blender執行場景切片，通過布爾交集對場景進行區塊切分，再靠occupancy檢測確保區塊內容密度（可見內容≥95%）。

同時，構建了粗、細兩個數據集，粗塊來確定宏觀布局，細塊保留紋理細節。

第二步靠3D塊補全機制實現了無縫拼接，在生成新區塊時，先讓結構生成器確定3D結構框架，再讓latent生成器重建結構化潛變量（SLAT）特征，保證外觀風格統一。

并且，在輸入模型時，會把帶噪潛變量、補全區域二進制掩碼、已掩碼的已知區域特征打包融合，讓模型依據現有區塊的上下文信息精準生成，消除邊緣斷裂、紋理錯位等拼接縫。

第三步是粗到精生成策略，把場景擴展變成了補全缺失塊的任務。

先通過粗結構模型敲定整體規劃，比如窗戶朝向、走廊連接等布局；隨后對粗結構進行三線性插值上采樣，將分辨率匹配至細塊級別，再調用細結構生成器補全家具、紋理等細節。

對比可以看出，WorldGrow能夠生成高分辨率、連續的室內場景，且場景具有真實且連貫的紋理。

實驗數據顯示，在3D-FRONT數據集上，它的幾何重建指標MMD、COV均達SOTA，FID（用于評估生成質量的核心指標，越低越優）低至7.52，大幅優于SynCity、BlockFusion等主流方法。

即便擴展到7×7塊的超大場景，邊緣質量仍然穩定。

在效率上，單張A100顯卡，30 分鐘即可生成10×10區塊（約272㎡）的室內場景，速度是同類技術的6倍。

本文一作是來自上海交通大學的Sikuang Li和Chen Yang，研究完成于他們在華為實習期間。

Chen Yang目前仍為華為研究實習生，研究聚焦于計算機視覺和計算機圖形學，導師之一就是這項研究的通訊作者、AI大牛田奇。

田奇，華為終端BG首席科學家，國際歐亞科學院院士，ACM/IEEE Fellow。

論文地址：https://arxiv.org/abs/2510.21682

責任編輯：張燕妮來源：量子位