剛剛,最佳VLA模型GigaBrain-0開源:世界模型驅(qū)動10倍數(shù)據(jù),真機碾壓SOTA
近日,在湖北武漢東湖高新區(qū),極佳視界與湖北人形機器人創(chuàng)新中心完成戰(zhàn)略合作簽約,并聯(lián)合發(fā)布端到端VLA「具身基礎(chǔ)模型」GigaBrain-0。
這是國內(nèi)首個利用「世界模型」生成數(shù)據(jù)實現(xiàn)真機泛化的視覺-語言-動作(VLA)基礎(chǔ)模型,旨在通過世界模型為中心,無論在數(shù)據(jù)側(cè)還是模型側(cè),徹底改變通用機器人大腦的開發(fā)方式。
GigaBrain-0擁有當前最先進的VLA模型架構(gòu),同時支持圖像、點云、文本、本體狀態(tài)的輸入,輸出結(jié)構(gòu)化的任務(wù)規(guī)劃和運動規(guī)劃,并在大規(guī)模的數(shù)據(jù)上完成預訓練,可以實現(xiàn)更精準的移動導航和長序列的復雜操作。
搭配極佳視界自研「世界模型平臺GigaWorld」,構(gòu)建最完整的具身數(shù)據(jù)體系,可以快速實現(xiàn)多種本體上復雜的機器人移動操作任務(wù)。后續(xù)GigaBrain-0將全面開源。

項目鏈接: https://gigabrain0.github.io/
論文鏈接: https://arxiv.org/pdf/2510.19430
01 核心算法架構(gòu)升級
針對當前機器人操作中的精準度不足和推理能力不足的問題,GigaBrain-0重點提升了3D空間感知能力和結(jié)構(gòu)化的推理能力,通過引入這兩項關(guān)鍵能力,GigaBrain-0可以完成更精準的移動導航和更長序列的復雜操作,具備更強泛化性,全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類復雜、柔性、長程移動操作任務(wù)!
1. 3D空間感知能力:加入Depth輸入,更精準的移動導航
GigaBrain-0通過加入深度信息的輸入,提升了物體3D位置和空間3D布局的感知能力,這兩點對于精確的雙臂操作和精確的移動導航至關(guān)重要。
2. 結(jié)構(gòu)化推理能力:更穩(wěn)定的長程、復雜任務(wù)表現(xiàn)
GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出,改進了自身在開放場景中的任務(wù)規(guī)劃和運動規(guī)劃能力,極大提升了復雜、長程任務(wù)的成功率:
- 子目標拆解:模型在推理過程中,可以同時輸出子任務(wù)的自然語言描述,讓GigaBrain-0對于長程任務(wù)的分解更合理。
- 末端軌跡輸出:模型在推理過程中,增加了機械臂末端執(zhí)行器運動路徑在圖像平面上2D投影的輸出,增強GigaBrain-0整體的全局動作規(guī)劃能力。
02 全球首個「世界模型」驅(qū)動的
最全數(shù)據(jù)體系
世界模型無論在數(shù)據(jù)側(cè)還是模型側(cè),對于具身智能都有極其關(guān)鍵的價值。極佳視界通過「世界模型」為中心,打造了全球首個最全具身智能數(shù)據(jù)體系,具體包括:
- Sim2Real Transfer Data: 利用Isaac Sim等仿真環(huán)境合成多樣化的機器人操作數(shù)據(jù),通過GigaWorld的Sim2Real變換,實現(xiàn)逼真的外觀渲染,同時保留原始場景幾何和動作語義。
- Real2Real Transfer Data: 將真實世界機器人采集的視頻重新渲染成外觀幾何上不同但物理上合理的變體,通過文本提示來控制前景及背景的材質(zhì)、表面紋理、光照條件,同時保持機器人動作和交互的一致性。這有效地將真實數(shù)據(jù)的多樣性提高了約10倍。
- View Transfer Data: 利用GigaWorld的3D空間場景重建能力,將單個真實采集的數(shù)據(jù)片段生成新視角的數(shù)據(jù)片段。
- Video Generation Data: GigaWorld可以根據(jù)單個輸入圖像和不同的文本提示生成多樣化的具身機器人操作視頻,并通過逆動力學模型推斷出相應(yīng)的機器人動作序列,合成訓練數(shù)據(jù)。
- Human Transfer Data: 通過視頻變換和運動學重定向,將大規(guī)模第一人稱視頻中的人手替換為機械臂,生成穩(wěn)定且可由機器人執(zhí)行的動作序列。
我們在多個任務(wù)上驗證了世界模型生成數(shù)據(jù)對于具身機器人真機操作任務(wù)的價值,結(jié)果表明通過增加世界模型生成的數(shù)據(jù)進行預訓練和后訓練,GigaBrain-0的真機操作成功率可以持續(xù)提升,并且全球首次實現(xiàn)了連續(xù)柔性復雜長程操作的開放世界泛化。
同時,通過混合世界模型生產(chǎn)的數(shù)據(jù)和真機采集數(shù)據(jù),GigaBrain-0可以快速完成特定本體上的任務(wù)適配和泛化。
通過「世界模型」驅(qū)動的具身最全數(shù)據(jù)體系,極佳視界將持續(xù)迭代具身大模型,加速走向物理世界通用智能。
03 高效的一腦多形跨本體適配
極佳視界聯(lián)合湖北人形機器人創(chuàng)新中心共同完成大規(guī)模預訓練數(shù)據(jù)的采集,數(shù)據(jù)覆蓋了工業(yè)、商業(yè)、辦公、家居、實驗室這5類場景,細分為超市、酒店大堂、咖啡店、奶茶店、便利店、餐廳、倉庫搬運、工業(yè)流水線、茶水間、住宅、公寓家居、會議室、辦公室工位、實驗室這14個具體場景。
結(jié)合場景豐富的預訓練數(shù)據(jù)和先進的模型架構(gòu),GigaBrain-0擁有優(yōu)秀的任務(wù)規(guī)劃能力,進一步借助「極佳世界模型平臺」,極佳視界可以在不同的本體上快速實現(xiàn)復雜的機器人操作任務(wù)。
極佳視界聯(lián)合湖北人形機器人創(chuàng)新中心,全球首次基于高集成度人形機器人本體,一鏡到底實現(xiàn)實時、長程、復雜、柔性操作!
接下來雙方將有更深入的合作。
04 實驗結(jié)果
GigaBrain-0通過真實機器人實驗進行了評估,包括靈巧操作任務(wù)(如疊衣服、整理卷紙)、長程任務(wù)(如收拾桌面、倒飲料)和移動操作任務(wù)(如搬運箱子、拾取衣物)。
實驗結(jié)果表明,GigaBrain-0的成功率顯著優(yōu)于現(xiàn)有SOTA方法。

關(guān)于極佳
極佳視界專注「世界模型平臺 x 具身基礎(chǔ)模型」,雙輪閉環(huán)走向物理世界通用智能。
在「世界模型」方向,極佳視界是國內(nèi)技術(shù)創(chuàng)新和產(chǎn)業(yè)落地的領(lǐng)跑者,相關(guān)產(chǎn)品技術(shù)廣泛應(yīng)用于自動駕駛、具身智能、內(nèi)容創(chuàng)作等相關(guān)方向。
在「具身大腦」方向,極佳視界通過全球領(lǐng)先的「世界模型平臺」提供大規(guī)模高質(zhì)量閉環(huán)數(shù)據(jù),相比純真機數(shù)據(jù)訓練效率提升1-2個數(shù)量級以上,同時真機效果達到國內(nèi)領(lǐng)先。
極佳視界由黃冠博士帶領(lǐng)團隊于2023年創(chuàng)立,是國內(nèi)第一家專注「世界模型 x 具身大腦」方向的科技公司。
公司核心團隊包括清華、北大、中科院、中科大、WashU、CMU等全球知名院校頂尖研究人員,以及來自微軟、三星、地平線、百度、博世、NBC環(huán)球影業(yè)等全球知名企業(yè)高管,核心團隊兼具業(yè)內(nèi)領(lǐng)先的研究能力和大規(guī)模的產(chǎn)業(yè)落地經(jīng)驗。
極佳視界是國內(nèi)少有在「世界模型」和「具身大腦」方向都擁有世界級綜合實力的團隊,在自動駕駛世界模型方向已經(jīng)和多個頭部主機廠達成簽約合作,在具身世界模型、具身大腦等方向已經(jīng)和多個具身本體、終端公司達成簽約合作,應(yīng)用于科研、教育、展覽、數(shù)據(jù)采集、工業(yè)、服務(wù)、家庭等多個場景。
極佳視界致力通過「世界模型平臺 x 具身基礎(chǔ)模型」,創(chuàng)造物理世界通用智能。



































