5620 億參數(shù)！谷歌發(fā)布史上最大“通才”AI 模型 PaLM-E，可讓機器人自主執(zhí)行多種任務(wù)

作者：遠洋 2023-03-09 06:31:14

PaLM-E 是迄今為止已知的最大 VLM（視覺語言模型）。作為一種多模態(tài)具身 VLM，它不僅可以理解圖像，還能理解、生成語言，執(zhí)行各種復雜的機器人指令而無需重新訓練。它還展示出了強大的涌現(xiàn)能力（模型有不可預測的表現(xiàn)）。

3 月 8 日消息，周一，來自谷歌和柏林工業(yè)大學的一組人工智能研究人員推出了史上最大的視覺語言模型 ——PaLM-E，參數(shù)量高達 5620 億（GPT-3 的參數(shù)量為 1750 億）。

據(jù)谷歌稱，當?shù)玫揭粋€高級命令，如“把抽屜里的米片拿給我”，PaLM-E 可以為帶有手臂的移動機器人平臺（由谷歌機器人公司開發(fā)）生成一個行動計劃，并自行執(zhí)行這些行動。

PaLM-E 通過分析來自機器人攝像頭的數(shù)據(jù)來實現(xiàn)這一目標，而無需對場景進行預處理。這消除了人類對數(shù)據(jù)進行預處理或注釋的需要，使機器人控制更加自主。

PaLM-E 還很有彈性，能夠?qū)Νh(huán)境做出反應。例如，PaLM-E 模型可以引導機器人從廚房里拿一袋薯片，由于 PaLM-E 集成到了控制回路中，它對任務(wù)中可能發(fā)生的中斷有了抵抗力。在一個視頻例子中，一名研究人員從機器人手中抓起薯片并移動它們，但機器人找到了薯片并再次抓起它們。

另外，PaLM-E 模型也可控制機器人自主完成原需人類指導的復雜任務(wù)。除了機器人技術(shù)外，谷歌研究人員還觀察到使用大型語言模型作為 PaLM-E 核心的幾個有趣效果，其中一個是 PaLM-E 能表現(xiàn)出“正向轉(zhuǎn)移”，這意味其可將從一個任務(wù)中學到的知識和技能轉(zhuǎn)移到另一個任務(wù)中，相較單任務(wù)機器人模型能有更好的表現(xiàn)。

谷歌研究人員計劃未來將探索 PaLM-E 在現(xiàn)實世界中有更多應用，例如家庭自動化或工業(yè)機器人，也希望 PaLM-E 能夠激發(fā)更多關(guān)于多模態(tài) AI 的應用。

IT之家曾報道，??身為谷歌 AI 勁敵的微軟近期也發(fā)表了「ChatGPT for Robotics」的論文??，以類似的方式結(jié)合視覺數(shù)據(jù)和大型語言模型來控制機器人。

責任編輯：龐桂玉來源： IT之家

視覺語言模型人工智能

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

5620 億參數(shù)！谷歌發(fā)布史上最大“通才”AI 模型 PaLM-E，可讓機器人自主執(zhí)行多種任務(wù)