国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

發(fā)布于 2024-5-24 10:03
瀏覽
0收藏

當(dāng)我們拿起一個(gè)機(jī)械手表時(shí),從正面會(huì)看到表盤和指針,從側(cè)面會(huì)看到表冠和表鏈,打開手表背面會(huì)看到復(fù)雜的齒輪和機(jī)芯。每個(gè)視角都提供了不同的信息,將這些信息綜合起來才能理解操作對(duì)象的整體三維。


想讓機(jī)器人在現(xiàn)實(shí)生活中學(xué)會(huì)執(zhí)行復(fù)雜任務(wù),首先需要使機(jī)器人理解操作對(duì)象和被操作對(duì)象的屬性,以及相應(yīng)的三維操作空間,包括物體位置、形狀、物體之間的遮擋關(guān)系,以及對(duì)象與環(huán)境的關(guān)系等。


其次,機(jī)器人需要理解自然語言指令,對(duì)未來動(dòng)作進(jìn)行長期規(guī)劃和高效執(zhí)行。使機(jī)器人具備從環(huán)境感知到動(dòng)作預(yù)測的能力是具有挑戰(zhàn)性的。


近期,中國電信人工智能研究院(TeleAI)李學(xué)龍教授團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、清華大學(xué)等單位,模擬人「感知—記憶—思維—想象」的認(rèn)知過程,提出了多視角融合驅(qū)動(dòng)的通用具身操作算法,為機(jī)器人學(xué)習(xí)復(fù)雜操作給出了可行解決方案,論文被國際機(jī)器學(xué)習(xí)大會(huì)ICML 2024錄用,為構(gòu)建通用三維具身策略奠定了基礎(chǔ)。

具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)


近年來,視覺基礎(chǔ)模型對(duì)圖像的理解能力獲得了飛速發(fā)展。然而,三維空間的理解還存在許多挑戰(zhàn)。能否利用視覺大模型幫助具身智能體理解三維操作場景,使其在三維空間中完成各種復(fù)雜的操作任務(wù)呢?受「感知—記憶—思維—想象」的認(rèn)知過程啟發(fā),論文提出了全新的基于視覺分割模型Segment Anything(SAM)的具身基座模型SAM-E


首先,SAM- E具有強(qiáng)大可提示(promptable)「感知」能力,將SAM特有的分割結(jié)構(gòu)應(yīng)用在語言指令的具身任務(wù)中,通過解析文本指令使模型關(guān)注到場景中的操作物體。


隨后,設(shè)計(jì)一種多視角Transformer,對(duì)深度特征、圖像特征與指令特征進(jìn)行融合與對(duì)齊,實(shí)現(xiàn)對(duì)象「記憶」與操作「思考」,以此來理解機(jī)械臂的三維操作空間。


最后,提出了一種全新的動(dòng)作序列預(yù)測網(wǎng)絡(luò),對(duì)多個(gè)時(shí)間步的動(dòng)作序列進(jìn)行建模,「想象」動(dòng)作指令,實(shí)現(xiàn)了從三維場景感知到具身動(dòng)作的端到端輸出


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)



從二維感知到三維感知


在數(shù)字時(shí)代的浪潮中,隨著人工智能技術(shù)的飛速發(fā)展,我們正逐漸邁入一個(gè)嶄新的時(shí)代——具身智能時(shí)代。賦予智能體以身體,使其具備與真實(shí)世界直接互動(dòng)的能力,成為了當(dāng)前研究的重點(diǎn)方向之一。


要實(shí)現(xiàn)這一目標(biāo),智能體必須具備強(qiáng)大的三維感知能力,以便能夠準(zhǔn)確地理解周圍環(huán)境。


傳統(tǒng)的二維感知手段在面對(duì)復(fù)雜的立體空間時(shí)顯得力不從心,如何讓具身智能體通過學(xué)習(xí)掌握對(duì)三維空間的精準(zhǔn)建模能力,成為了一個(gè)亟待解決的關(guān)鍵問題。


現(xiàn)有工作通過正視圖、俯視圖、側(cè)視圖等等多個(gè)視角的視圖還原和重建三維空間,然而所需的計(jì)算資源較為龐大,同時(shí)在不同場景中具有的泛化能力有限。


為了解決這個(gè)問題,本工作探索一種新的途徑——將視覺大模型的強(qiáng)大泛化能力應(yīng)用于具身智能體的三維感知領(lǐng)域


SAM-E提出了使用具有強(qiáng)大泛化能力的通用視覺大模型 SAM 進(jìn)行視覺感知,通過在具身場景的高效微調(diào),將其具有的可泛化,可提示(promptable)的特征提取能力、實(shí)例分割能力、復(fù)雜場景理解等能力有效遷移到具身場景中。


為了進(jìn)一步優(yōu)化SAM基座模型的性能,引入了動(dòng)作序列網(wǎng)絡(luò)的概念,不僅能夠捕捉單個(gè)動(dòng)作的預(yù)測,還能夠深入理解連續(xù)動(dòng)作之間的內(nèi)在聯(lián)系,充分挖掘動(dòng)作間的時(shí)序信息,從而進(jìn)一步提高基座模型對(duì)具身場景的理解與適應(yīng)能力。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖1. SAM-E總體框架


SAM-E方法


SAM-E方法的核心觀點(diǎn)主要包含兩個(gè)方面:


  • 利用SAM的提示驅(qū)動(dòng)結(jié)構(gòu),構(gòu)建了一個(gè)強(qiáng)大的基座模型,在任務(wù)語言指令下?lián)碛谐錾姆夯阅堋Mㄟ^LoRA微調(diào)技術(shù),將模型適配到具身任務(wù)中,進(jìn)一步提升了其性能。
  • 采用時(shí)序動(dòng)作建模技術(shù),捕捉動(dòng)作序列中的時(shí)序信息,更好地理解任務(wù)的動(dòng)態(tài)變化,并及時(shí)調(diào)整機(jī)器人的策略和執(zhí)行方式,使機(jī)器人保持較高的執(zhí)行效率。


可提示感知與微調(diào)


SAM- E核心在于利用任務(wù)指令提示驅(qū)動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu),包含一個(gè)強(qiáng)大的視覺編碼器和一個(gè)輕量的解碼器。


在具身場景中任務(wù)「提示」以自然語言的形式呈現(xiàn),作為任務(wù)描述指令,視覺編碼器發(fā)揮其可提示的感知能力,提取與任務(wù)相關(guān)的特征。策略網(wǎng)絡(luò)則充當(dāng)解碼器的角色,基于融合的視覺嵌入和語言指令輸出動(dòng)作。


在訓(xùn)練階段,SAM-E 使用 LoRA 進(jìn)行高效微調(diào),大大減少了訓(xùn)練參數(shù),使視覺基礎(chǔ)模型能夠快速適應(yīng)于具身任務(wù)。


多視角三維融合


SAM-E引入了多視角Transformer網(wǎng)絡(luò),以融合多視角的視覺輸入,深入理解三維空間。其工作分為兩個(gè)階段:視角內(nèi)注意力(View-wise Attention)跨視角注意力(Cross-view Attention)


首先,對(duì)多視角特征分別進(jìn)行視角內(nèi)部的注意力處理,然后融合多個(gè)視角和語言描述進(jìn)行混合視角注意力,實(shí)現(xiàn)多視角的信息融合和圖像—語言對(duì)齊。


動(dòng)作序列建模


在機(jī)械臂執(zhí)行中,末端執(zhí)行器的位置和旋轉(zhuǎn)通常呈現(xiàn)出連續(xù)而平滑的變化趨勢。這一特性使得相鄰動(dòng)作之間存在著密切的聯(lián)系和連續(xù)性。基于這一觀察,提出了一種新穎的時(shí)間平滑假設(shè),旨在充分利用相鄰動(dòng)作之間的內(nèi)在關(guān)聯(lián),實(shí)現(xiàn)對(duì)動(dòng)作序列的有效模仿學(xué)習(xí)


具體來說,SAM-E框架通過序列建模技術(shù)捕捉動(dòng)作序列中的模式和關(guān)系,為動(dòng)作預(yù)測提供一種隱性的先驗(yàn)知識(shí),并對(duì)動(dòng)作的連續(xù)性加以約束,從而顯著提升動(dòng)作預(yù)測的準(zhǔn)確性和一致性。


在實(shí)際應(yīng)用中,SAM-E 允許在一次動(dòng)作預(yù)測中執(zhí)行后續(xù)的多步動(dòng)作,極大地提高了執(zhí)行效率。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)


圖3.連續(xù)動(dòng)作的位置和旋轉(zhuǎn)變化              


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖4.動(dòng)作序列預(yù)測網(wǎng)絡(luò)


實(shí)驗(yàn)


實(shí)驗(yàn)使用具有挑戰(zhàn)性的機(jī)械臂任務(wù)集合——RLBench,對(duì)多視角觀測下的3D操作任務(wù)進(jìn)行了全面評(píng)估,SAM-E模型在多個(gè)方面均顯著優(yōu)于其他傳統(tǒng)方法。


  • 多任務(wù)場景下,SAM-E模型顯著提高了任務(wù)成功率。
  • 面對(duì)少量樣本遷移至新任務(wù)的情況下,SAM-E憑借強(qiáng)大的泛化性能和高效的執(zhí)行效率,有效提升新任務(wù)的表現(xiàn)。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖5.三維操作任務(wù)結(jié)果比較


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖6.三維操作任務(wù)示例


此外,動(dòng)作序列建模顯著提高了 SAM-E 的執(zhí)行效率,同時(shí)在策略執(zhí)行階段,相比于單個(gè)動(dòng)作,動(dòng)作序列執(zhí)行顯著降低了模型推理次數(shù),測試中甚至能通過一次模型推理完成相應(yīng)任務(wù)。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖7.任務(wù)執(zhí)行中的模型推理頻率


SAM-E在真實(shí)機(jī)械臂控制中同樣有效,使用兩個(gè)第三人稱相機(jī)捕獲多視角視覺輸入,在五個(gè)真實(shí)任務(wù)上具有實(shí)時(shí)的推理能力。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖8.真實(shí)機(jī)械臂任務(wù)


總結(jié)


該工作開創(chuàng)性地提出了一種以多視角融合的基礎(chǔ)的通用具身操作算法,利用視覺分割大模型和多視角融合實(shí)現(xiàn)具身智能體的三維物理空間感知。


通過高效的參數(shù)微調(diào),將預(yù)訓(xùn)練視覺模型遷移到具身場景中,能夠解決自然語言指令的復(fù)雜3D機(jī)械臂操作任務(wù)。此外,模型可以通過學(xué)習(xí)少量專家示例,快速泛化到新的任務(wù)中,展現(xiàn)出優(yōu)越的訓(xùn)練效率和動(dòng)作執(zhí)行效率。


更重要的是,SAM-E以「感知—記憶—思維—想象」的認(rèn)知鏈路,實(shí)現(xiàn)了從數(shù)據(jù)到動(dòng)作的端到端映射。其意義不僅在于其在具身智能體中的應(yīng)用,更在于對(duì)提升智能體認(rèn)知能力的啟發(fā)。


通過模擬人類的感知和決策方式,智能體能夠更好地理解和適應(yīng)復(fù)雜的環(huán)境,從而在更廣泛的領(lǐng)域發(fā)揮更大的作用。


團(tuán)隊(duì)負(fù)責(zé)人介紹:


李學(xué)龍,中國電信CTO、首席科學(xué)家,中國電信人工智能研究院(TeleAI)院長。主要關(guān)注人工智能、臨地安防、圖像處理、具身智能。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)


本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/bLqyLHzFoBrRBT0jgkmZMw??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美韩国日本综合| 亚洲一区二区三区四区中文字幕| 欧美黑人狂野猛交老妇| 手机看片福利在线观看| 久久亚洲二区| 国产mv久久久| 激情久久一区二区| 91精品国产美女浴室洗澡无遮挡| 色www免费视频| 久久精品av麻豆的观看方式| 国产精品综合不卡av| **在线精品| 91精品免费观看| 午夜丝袜av电影| 99re热这里只有精品免费视频| 久久99精品久久久久久青青日本| 99久久久成人国产精品| 欧美一个色资源| 中文字幕在线观看第一页| 日本一区二区高清| 一级黄色片播放| 久久精品男女| 国产精品免费福利| 国产精品毛片aⅴ一区二区三区| 高清无码一区二区在线观看吞精| 国产天堂在线| 欧美一区二区三区四区在线观看| 69久久精品| 亚洲免费成人av| 亚洲国产欧美不卡在线观看| 亚洲深深色噜噜狠狠爱网站| 九九精品在线观看| 污视频网站在线观看| 91麻豆精品国产91久久久久| 精品成人免费一区二区在线播放| 国产精品亚洲一区二区三区| 国产精品一二三| 5566中文字幕一区二区| 国产亚洲污的网站| 国产精品美女| 亚洲国产又黄又爽女人高潮的| 蝌蚪视频在线播放| 欧美吻胸吃奶大尺度电影| 福利片在线观看| 91精品国产综合久久久蜜臀粉嫩| 超碰国产精品一区二页| 天堂资源在线亚洲视频| 色欧美日韩亚洲| 欧美三区四区| 成人自拍视频网站| 色视频一区二区| 一级做a爰片久久| 午夜在线视频观看日韩17c| 国产精品入口免费| 亚洲综合二区| 日韩av电影免费观看| 久久婷婷亚洲| 亚洲高清视频一区| 国产精品系列在线观看| 国产精品久久久久久久久电影网| 粉嫩高潮美女一区二区三区| 国产精品国三级国产av| 成人高清视频在线观看| 无码少妇一区二区三区芒果| 欧美国产丝袜视频| 欧美另类极限扩张| 在线播放91灌醉迷j高跟美女| 欧美xxxx黑人又粗又长| 最近2019中文免费高清视频观看www99 | 色妞一区二区三区| 激情亚洲影院在线观看| 久久精品美女视频网站| 蜜乳av综合| 国产欧美一区二区三区另类精品 | 亚洲高清在线一区| 欧美小视频在线| 欧美成人精品一区二区男人看| 欧美一区二区三区小说| 三级成人黄色影院| 欧美极品少妇xxxxⅹ喷水| 欧洲福利电影| 久久本道综合色狠狠五月| 国内欧美视频一区二区| 男女啪啪网站视频| 色综合久久88色综合天天免费| 免费大片在线观看www| 国产亚洲激情视频在线| 国产精品高潮呻吟久久久久| 91久久中文字幕| 美女国产一区二区| 国产午夜福利在线播放| 亚洲一区二区在线免费看| 国产精品com| 欧美一区二区大片| 婷婷六月综合| 亚洲欧美中文字幕在线一区| 日本免费一区二区三区视频| 国产精品第2页| 精品国产一区二区三区四区在线观看| 亚洲美女色禁图| 亚洲高清不卡| 无码专区aaaaaa免费视频| 亚洲午夜成aⅴ人片| 一二区成人影院电影网| 久久久久久亚洲精品不卡| 久久精品99久久久久久久久| 精品国产乱码| 日韩国产精品毛片| 亚洲高清视频的网址| 中文在线8资源库| 国产精品午夜视频| 粉嫩在线一区二区三区视频| 一卡二卡三卡亚洲| 国产一区二区三区精品久久久| 精品久久精品| 97在线国产视频| 色综合久久综合| 自拍偷拍亚洲图片| 日韩久久久久久久| 亚洲午夜视频在线| 99国内精品久久久久| 美日韩精品免费| 亚洲欧美另类久久久精品 | 青青成人在线| 亚洲精品免费视频| 成人日韩精品| 欧美日韩另类丝袜其他| 一区二区三区鲁丝不卡| 国产美女久久| 在线视频不卡国产| 欧美熟乱第一页| 欧美精选一区二区三区| 男人操女人免费| 日韩av一区在线观看| 亚洲午夜精品久久久久久app| 国内自拍视频网| 中国日韩欧美久久久久久久久| 天堂午夜影视日韩欧美一区二区| 天堂a中文在线| 国产精品igao视频| 亚洲欧美成人一区二区三区| 日韩免费在线电影| 欧美 日韩 国产精品| 精品国产91久久久久久久妲己| 欧美三区不卡| 在线小视频网址| 45www国产精品网站| 成人免费电影视频| 精品极品在线| 日韩视频精品| 精品国偷自产国产一区| 亚洲片区在线| 日本暖暖在线视频| 精品欧美一区二区在线观看视频| 精品国产乱码久久久久久天美 | 秋霞久久久久久一区二区| 亚洲成人免费影院| 久操精品在线| 又黄又www的网站| 国产精品露脸av在线| 亚洲综合一二区| 国产剧情在线观看一区| 欧美高清视频在线| 99国产视频| 国产精品久久久久久久久免费| 精品视频在线一区二区| 国产福利久久| 欧美性猛交xxxx黑人交| 欧美欧美天天天天操| 一个人免费观看视频www在线播放| 国产91在线播放| 亚洲欧美日韩国产成人精品影院| 91热爆在线观看| 高潮毛片在线观看| 日本视频一区二区在线观看| 亚洲一级网站| 国产乱视频在线观看| av一区二区三区在线观看| 欧美中文字幕不卡| 视频在线在亚洲| 日韩一级二级| 九七影院97影院理论片免费| 日韩av免费在线| 精品久久久久久电影| 精品91在线| 男女羞羞视频在线观看| 中文字幕在线中文| 日韩一区二区三区国产| 国产亚洲精品bt天堂精选| 911亚洲精品| 中文视频在线| 欧美福利精品| 在线不卡国产精品| 亚洲婷婷国产精品电影人久久| 日韩精品欧美| 国产色在线观看| 免费看又黄又无码的网站| 国产91在线播放| 精品国产髙清在线看国产毛片| 国产精品1区2区3区|