首個(gè)文本到3D生成RL范式誕生,攻克幾何與物理合理性
在大語(yǔ)言模型和文生圖領(lǐng)域,強(qiáng)化學(xué)習(xí)(RL)已成為提升模型思維鏈與生成質(zhì)量的關(guān)鍵方法。
但當(dāng)我們將目光轉(zhuǎn)向更為復(fù)雜的文本到3D生成時(shí),這套方法還會(huì)還管用嗎?
近期,一項(xiàng)由西北工業(yè)大學(xué)、北京大學(xué)、香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室、香港科技大學(xué)合作開展的研究系統(tǒng)性探索了這一重要問(wèn)題。

論文鏈接:https://arxiv.org/pdf/2512.10949
代碼鏈接:https://github.com/Ivan-Tang-3D/3DGen-R1
強(qiáng)化學(xué)習(xí)是否能夠用于Text-to-3D生成,以加強(qiáng)3D自回歸模型的逐步推理與生成過(guò)程?
在LLM推理和2D文生圖中,RL已經(jīng)證明可以顯著提升CoT推理能力和生成質(zhì)量。但3D物體更長(zhǎng)、更稠密、更具幾何約束。
因此相關(guān)方向研究常面臨這幾個(gè)問(wèn)題:1. 獎(jiǎng)勵(lì)如何同時(shí)刻畫語(yǔ)義對(duì)齊、幾何一致性和視覺質(zhì)量?2. 現(xiàn)有RL算法是否適合自回歸式3D生成?3. 缺乏專門考察“3D推理能力”的Benchmark,難以系統(tǒng)評(píng)估RL的真實(shí)貢獻(xiàn)。

Progressive Investigation:四個(gè)層次拆解Text-to-3D+RL
1. Reward設(shè)計(jì)層

經(jīng)過(guò)系統(tǒng)對(duì)比人類偏好、文本對(duì)齊、多視圖一致性、3D美學(xué)等多種獎(jiǎng)勵(lì)組合。研究團(tuán)隊(duì)發(fā)現(xiàn):
1)對(duì)齊人類偏好信號(hào)是提升整體3D質(zhì)量的關(guān)鍵。其他獎(jiǎng)勵(lì)維度單獨(dú)使用時(shí)帶來(lái)的提升有限,但在疊加到偏好獎(jiǎng)勵(lì)之上時(shí)能夠持續(xù)帶來(lái)增益;
2)對(duì)于同一獎(jiǎng)勵(lì)維度而言,專門化的獎(jiǎng)勵(lì)模型通常比大型多模態(tài)模型(LMMs)表現(xiàn)出更強(qiáng)的魯棒性。然而,通用多模態(tài)模型(Qwen-VL)在3D相關(guān)屬性上出乎意料地魯棒,為“低成本獎(jiǎng)勵(lì)”提供可能。
2. RL算法層

評(píng)估GRPO、DAPO、GSPO等在3D自回歸生成中的表現(xiàn)。主要Insight:
1)相比序列級(jí)操作,3D自回歸生成中的強(qiáng)化學(xué)習(xí)更偏好token級(jí)策略。如表2所示,在相同獎(jiǎng)勵(lì)模型配置下,token級(jí)平均策略帶來(lái)的提升顯著大于序列級(jí)的重要性采樣與剪切方法(GSPO)。
2)簡(jiǎn)單的技巧即可穩(wěn)定訓(xùn)練,尤其是Dynamic Sampling,只要策略更新受控。完全移除KL懲罰會(huì)導(dǎo)致性能下降;而像Decoupled Clip這類更可控的方法,通過(guò)鼓勵(lì)對(duì)低概率token的探索,仍能帶來(lái)性能增益。
3)擴(kuò)大量級(jí)的訓(xùn)練數(shù)據(jù)能夠有效緩解偏好獎(jiǎng)勵(lì)帶來(lái)的偏差并提升整體表現(xiàn);適度增加RL迭代也能進(jìn)一步優(yōu)化模型,但過(guò)度訓(xùn)練可能損害泛化能力。
3. Benchmark層:MME-3DR

構(gòu)建首個(gè)針對(duì)3D推理場(chǎng)景的系統(tǒng)評(píng)測(cè)基準(zhǔn)MME-3DR:由空間&結(jié)構(gòu)幾何,機(jī)械可供性與物理合理性,生物/有機(jī)形態(tài),長(zhǎng)尾稀有實(shí)體和風(fēng)格化/抽象形態(tài)五類組成。
MME-3DR希望更關(guān)注“在困難約束下是否還能保持一致、合理、可解釋”,而非只展示多樣性。研究團(tuán)隊(duì)發(fā)現(xiàn):
1)近期的Text-to-3D模型在機(jī)械結(jié)構(gòu)和非剛性生物體上表現(xiàn)尚可,但在其余三個(gè)類別上仍存在明顯不足。RL訓(xùn)練在所有五類任務(wù)上都帶來(lái)了顯著提升。如圖中雷達(dá)圖所示。
2)MME-3DR能同時(shí)評(píng)估隱式推理與通用3D生成能力。圖中柱狀圖顯示,在隨機(jī)采樣的Toys4K測(cè)試集上,Trellis明顯優(yōu)于ShapeLLM-Omni。這一性能差距在MME-3DR中依然保持,進(jìn)一步驗(yàn)證了其多樣化物體覆蓋帶來(lái)的評(píng)測(cè)有效性。
4. RL范式層:Hi-GRPO & AR3D-R1

把3D生成看作天然的coarse-to-fine過(guò)程:Step 1:高層語(yǔ)義先決定整體幾何骨架;Step 2:在幾何穩(wěn)定的前提下細(xì)化紋理與局部結(jié)構(gòu)。
對(duì)兩個(gè)step團(tuán)隊(duì)單獨(dú)設(shè)計(jì)專有獎(jiǎng)勵(lì)模型集成進(jìn)行監(jiān)督,基于此提出層次化RL范式Hi-GRPO,并實(shí)現(xiàn)首個(gè)RL加持的Text-to-3D自回歸模型AR3D-R1。
關(guān)鍵發(fā)現(xiàn):RL正在幫3D生成模型“學(xué)會(huì)思考”
1. 不僅僅是“調(diào)美觀”:在MME-3DR上,RL訓(xùn)練后的模型在空間幾何、一致性和物理可行性等維度都有顯著提升,表現(xiàn)出隱式3D推理能力的增強(qiáng)。
2. 范式對(duì)齊結(jié)構(gòu)先驗(yàn)很重要:尊重“先幾何、后紋理”的層次結(jié)構(gòu)設(shè)計(jì)(Hi-GRPO),比簡(jiǎn)單在最終圖像上打分更有效,也更可解釋。
3. 性能與穩(wěn)定性的二元博弈:獎(jiǎng)勵(lì)過(guò)于稀疏或RL迭代數(shù)過(guò)大,會(huì)帶來(lái)訓(xùn)練不穩(wěn)和模式坍縮;高質(zhì)量人類偏好或強(qiáng)多模態(tài)獎(jiǎng)勵(lì),可以在同等訓(xùn)練預(yù)算下取得更高回報(bào)。
4. 同時(shí),結(jié)果清晰的顯示出當(dāng)前模型的能力邊界:對(duì)極復(fù)雜幾何、長(zhǎng)尾概念和強(qiáng)風(fēng)格化場(chǎng)景,模型仍會(huì)“邏輯崩壞”;真正可擴(kuò)展的 3D RL 仍受限于算力與獎(jiǎng)勵(lì)獲取成本。
更多可視化結(jié)果:



論文標(biāo)題:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
作者單位:西北工業(yè)大學(xué)、北京大學(xué)、香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室、香港科技大學(xué)
































