国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌版賈維斯即將問世,最強Gemini 2.0加持!AI自主操控電腦時代來臨

人工智能 新聞
科幻中的賈維斯,已經離我們不遠了。Claude 3.5接管人類電腦掀起了人機交互全新范式,爆料稱谷歌同類Project Jarvis預計年底亮相。AI操控電腦已成為微軟、蘋果等巨頭,下一個發力的戰場。

AI接管人類電腦,就是下一個未來!

幾天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光標完成復雜任務,足以驚掉下巴。

剛剛,Information獨家爆料稱,谷歌正開發同類新項目「Project Jarvis」,能將Chrome網頁任務自動化。

谷歌「賈維斯」將由未來版Gemini 2.0驅動,預計在12月亮相。

圖片

起這個名字,是為了向鋼鐵俠中的J.A.R.V.I.S致敬。

圖片

無獨有偶,微軟團隊悄悄放出的OmniParser,也在篤定AI智能體操控屏幕的未來。

圖片

論文地址:https://arxiv.org/pdf/2408.00203

OmniParser主要是一個屏幕解析的工具,可以將截圖轉化為結構化數據,幫助AI精準理解用戶意圖。

圖片

不僅如此,OpenAI內部已有了AI智能體雛形,可以操控計算機完成在線訂餐、自動查詢解決編程難題等任務。

包括蘋果在內,預計在明年發布跨多個APP屏幕識別能力。最新迭代的Ferret-UI 2,就是通用UI模型。

可見,「Computer use」已經成為科技大廠們,重點發力的下一個戰場。

圖片

谷歌「賈維斯」年底出世,最強Gemini 2加持

代號為Jarvis Project項目,本質上是一個大動作模型(LAM),也是谷歌一直以來在做的大模型方向。

它專門針對谷歌Chrome瀏覽器,進行了優化。

具體操作原理,與Claude 3.5類似,通過截屏、解析屏幕內容,然后自動點擊按鈕,或輸入文本,最終幫助人們完成基于網頁的日常任務。

不論是收集研究信息、購物,或是預定航班等任務,谷歌「賈維斯」均可實現。

不過,它在執行不同操作時,中間會有幾秒鐘的思考時間。

因此,在終端設備中運行還不太現實,仍然需要云上操作。

5月的谷歌I/O大會上,谷歌CEO劈柴曾展示了,Gemini和Chrome如何協同工作的樣貌。

圖片

如前所述,谷歌「賈維斯」將由Gemini 2.0加持,也就意味著年底我們可以看到進步版Gemini模型。

圖片

盡管Sam Altman否認了Orion模型的發布,但外媒猜測,預計年底OpenAI也將放出新核彈

微軟OmniParser也下場了

緊接著Claude「計算機使用」發布之后,微軟就開源了AI框架OmniParser。

圖片

假設你想要去布賴斯峽谷國家公園,不知是否需要訂票入園,這時OmniParser可以帶你查詢。

它會解析屏幕后,自動點擊「permits」按鈕,然后再截屏找到「布賴斯峽谷國家公園」,最后就可以完成用戶任務。

圖片

可見,想要把類似GPT-4V的多模態大模型應用于操作系統上,模型還需要具備強大的屏幕解析能力,主要包括兩方面:

1、準確地識別用戶界面中的可交互圖標;

2、理解屏幕截圖中各種元素的語義,并準確將預期動作與屏幕上的相應區域關聯起來。

基于上述思路,微軟最新提出的OmniParser模型,可以將用戶界面截圖解析為結構化元素,顯著增強了GPT-4V在對應界面區域預測行動的能力。

方法

一個復雜的操作任務通常可以分解成多個子行動步驟,在執行過程中,模型需要具備以下能力:

1、理解當前步驟的用戶界面,即分析屏幕內容中大體上在展示什么、檢測到的圖標功能是什么等;

2、預測當前屏幕上的下一個動作,來幫助完成整個任務。

圖片

研究人員發現,將這兩個目標分解開,比如在屏幕解析階段只提取語義信息等,可以減輕GPT-4V的負擔;模型也能夠從解析后的屏幕中利用更多信息,動作預測準確率更高。

圖片

因此,OmniParser結合了微調后的可交互圖標檢測模型、微調后的圖標描述模型以及光學字符識別(OCR)模塊的輸出,可以生成用戶界面的結構化表示,類似于文檔對象模型(DOM),以及一個疊加潛在可交互元素邊界框的屏幕截圖。

可交互區域檢測(Interactable Region Detection)

從用戶界面屏幕中識別出「可交互區域」非常關鍵,也是預測下一步行動來完成用戶任務的基礎。

研究人員并沒有直接提示GPT-4V來預測屏幕中操作范圍的xy坐標值,而是遵循先前的工作,使用標記集合方法在用戶界面截圖上疊加可交互圖標的邊界框,并要求GPT-4V生成要執行動作的邊界框ID。

為了提高準確性,研究人員構造了一個用于可交互圖標檢測的微調數據集,包含6.7萬個不重復的屏幕截圖,其中所有圖像都使用從DOM樹派生的可交互圖標的邊界框進行標記。

為了構造數據集,研究人員首先從網絡上公開可用的網址中提取了10萬個均勻樣本,并從每個URL的DOM樹中收集網頁的可交互區域的邊界框。

圖片

除了可交互區域檢測,還引有一個OCR模塊來提取文本的邊界框。

然后合并OCR檢測模塊和圖標檢測模塊的邊界框,同時移除重疊度很高的框(閾值為重疊超過90%)。

對于每個邊界框,使用一個簡單的算法在邊框旁邊標記一個ID,以最小化數字標簽和其他邊界框之間的重疊。

圖片

整合功能的局部語義(Incorporating Local Semantics of Functionality)

研究人員發現,在很多情況下,如果僅輸入疊加了邊界框和相關ID的用戶界面截圖可能會對GPT-4V造成誤導,這種局限性可能源于GPT-4V無法「同時」執行「識別圖標的語義信息」和「預測特定圖標框上的下一個動作」的復合任務。

為了解決這個問題,研究人員將功能局部語義整合到提示中,即對于可交互區域檢測模型檢測到的圖標,使用一個微調過的模型為圖標生成功能描述;對于文本框,使用檢測到的文本及其標簽。

圖片

然而,目前還沒有專門為用戶界面圖標描述而訓練的公共模型,但這類模型非常適合目標場景,即能夠為用戶界面截圖提供快速準確的局部語義。

研究人員使用GPT-4o構造了一個包含7000對「圖標-描述」的數據集,并在數據集上微調了一個BLIP-v2模型,結果也證明了該模型在描述常見應用圖標時更加可靠。

圖片

實驗評估

SeeAssign任務

為了測試GPT-4V模型正確預測邊界框描述所對應的標簽ID的能力,研究人員手工制作了一個名為SeeAssign的數據集,其中包含了來自3個不同平臺(移動設備、桌面電腦和網絡瀏覽器)的112個任務樣本,每個樣本都包括一段簡潔的任務描述和一個屏幕截圖。

根據難度,任務被分為三類:簡單(少于10個邊界框)、中等(10-40個邊界框)和困難(超過40個邊界框)。

GPT-4V不帶局部語義的提示:


Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n


帶局部語義的提示:

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n

從結果來看,GPT-4V經常錯誤地將數字ID分配給表格,特別是當屏幕上有很多邊界框時;通過添加包括框內文本和檢測到的圖標的簡短描述在內的局部語義,GPT-4V正確分配圖標的能力從0.705提高到0.938

圖片

ScreenSpot評估

ScreenSpot數據集是一個基準測試數據集,包含了來自移動設備(iOS、Android)、桌面電腦(macOS、Windows)和網絡平臺的600多個界面截圖,其中任務指令是人工創建的,以確保每個指令都對應用戶界面屏幕上的一個可操作元素。

圖片

結果顯示,在三個不同的平臺上,OmniParser顯著提高了GPT-4V的基線性能,甚至超過了專門在圖形用戶界面(GUI)數據集上微調過的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。

還可以注意到,加入局部語義(表中的OmniParser w. LS)可以進一步提高整體性能,即在文本格式中加入用戶界面截圖的局部語義(OCR文本和圖標邊界框的描述),可以幫助GPT-4V準確識別要操作的正確元素。

Mind2Web評估

測試集中有3種不同類型的任務:跨領域、跨網站和跨任務,可以測試OmniParser在網頁導航場景中的輔助能力。

圖片

結果顯示,即使沒有使用網頁的HTML信息,OmniParser也能大幅提高智能體的性能,甚至超過了一些使用HTML信息的模型,表明通過解析屏幕截圖提供的語義信息非常有用,特別是在處理跨網站和跨領域任務時,模型的表現尤為出色。

AITW評估

研究人員還在移動設備導航基準測試AITW上對OmniParser進行了評估,測試包含3萬條指令和71.5萬條軌跡。

圖片

結果顯示,用自己微調的模型替換了原有的IconNet模型,并加入了圖標功能的局部語義信息后,OmniParser在大多數子類別中的表現都有了顯著提升,整體得分也比之前最好的GPT-4V智能體提高了4.7%。

這表明了,模型能夠很好地理解和處理移動設備上的用戶界面,即使在沒有額外訓練數據的情況下也能表現出色。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-07 11:12:54

大型語言模型Gemini人工智能

2024-08-14 13:50:00

模型訓練

2025-01-24 08:20:59

2023-12-07 08:39:43

2011-12-03 20:17:37

Android

2015-07-22 20:25:30

HTML5

2018-03-08 10:33:48

2019-09-01 23:40:02

內存技術芯片

2021-01-13 23:08:00

數字貨幣人民幣金融

2019-05-22 10:05:31

人工智能AI教育

2025-03-03 11:21:40

2012-04-24 09:47:36

Ubuntu手機

2024-12-20 14:30:00

2025-04-09 13:19:29

2010-04-22 16:17:46

物聯網CIOIBM

2025-02-06 09:52:12

2012-05-23 09:46:15

Titanium MoTitanium

2025-08-28 08:50:00

2017-07-07 16:11:40

2025-04-09 08:00:00

人形機器人智能設備邊緣側AI計算
點贊
收藏

51CTO技術棧公眾號

欧美videossexotv100| 免费av片在线观看一道本| 污视频网站在线免费观看| 青娱乐极品盛宴一区二区| 欧美最猛黑人xxxx黑人猛叫黄| 伊人久久亚洲影院| 精品少妇在线视频| 精品奇米国产一区二区三区| 国产精品区在线| 天堂俺去俺来也www久久婷婷| 国产高清一区| 午夜成人在线视频| 国产一区二区黄| 日韩成人影视| 欧美性色综合网| 国际av在线| 在线观看不卡视频| 日本午夜在线| 亚洲成a人片在线观看中文| av免费网站观看| 91麻豆成人久久精品二区三区| 欧美交换配乱吟粗大25p| 国产高清不卡二三区| 久久艹国产精品| www精品美女久久久tv| 欧美狂野激情性xxxx在线观| 成人午夜又粗又硬又大| 欧美亚洲另类色图| 国产欧美一区二区精品秋霞影院 | 欧美极品欧美精品欧美视频| **日韩最新| 久久精品电影网| 日本成人精品| 国产精品福利在线观看| 色综合久久网| 91免费在线观看网站| 久久久xxx| 妺妺窝人体色777777| 国产日产欧美一区| 日本一区二区三区电影| 欧美日韩国产另类一区| 性欧美18xxxhd| 午夜精品久久久久久久99热浪潮| 日韩国产一区| 亚洲精品人成| 91亚洲国产成人精品一区二区三| 好男人看片在线观看免费观看国语 | 91久久国产自产拍夜夜嗨| 一区二区自拍| 色噜噜狠狠色综合网| 成人av综合在线| 黄网在线播放| 欧美一二三区在线| 欧美午夜网站| 国产91社区| zzijzzij亚洲日本少妇熟睡| 91欧洲在线视精品在亚洲| 日韩欧美123| 9l视频自拍九色9l视频成人| 国产日韩av在线播放| 性欧美videos另类喷潮| 久久久久狠狠高潮亚洲精品| 色综合久久88色综合天天| 成人在线视频播放| 成人网在线视频| 粉嫩av一区二区三区| 在线国产一区二区三区| 精品国产亚洲在线| 日韩精品丝袜美腿| 精品无人乱码一区二区三区的优势| 国产91精品精华液一区二区三区| 国产美女在线播放| 国产亚洲欧美日韩美女| 亚洲精品二区三区| 熟女少妇在线视频播放| 91久久免费观看| 国语精品视频| 亚洲高清精品中出| 亚洲一区二区偷拍精品| 欧洲一级精品| 精品乱色一区二区中文字幕| 国产精品久久久爽爽爽麻豆色哟哟 | 亚洲精品一线| 欧洲精品毛片网站| 九九精品视频在线看| 一级毛片高清视频| 国产午夜精品视频免费不卡69堂| 色爱综合网欧美| aa在线免费观看| 精品人伦一区二区色婷婷| 91日韩在线| 亚洲视频在线观看一区二区三区| 欧美xxx久久| 亚洲91视频| 三级黄色的网站| 最近2019中文字幕一页二页| 在线亚洲观看| 在线看国产视频| 1769国产精品| 久久这里只有精品视频网| 搞黄网站在线看| 久久国产精品亚洲va麻豆| 一区二区三区免费网站| 日韩精品三级| 成人午夜视频在线观看免费| 亚洲精品久久久久久久久久久久 | 欧洲不卡av| 国产主播在线一区| 国产精品色呦呦| 91在线成人| 福利网在线观看| 欧美大片一区二区三区| 亚洲黄色三级| av在线电影院| 99视频网站| 欧美色xxxx| 93在线视频精品免费观看| 国产福利a级| 性欧美在线看片a免费观看| 99这里都是精品| 欧美日韩国产网站| 99热这里只有精品免费| 日韩电影大片中文字幕| 免费看欧美女人艹b| 亚洲91av| 影音先锋欧美资源| 精品少妇一区二区三区视频免付费 | 国产99精品国产| 瑟瑟视频在线看| 亚洲三区在线| 亚洲电影免费观看高清完整版在线| 亚洲在线电影| 色黄网站在线观看| 小说区图片区图片区另类灬| 欧美精品一区视频| 美腿丝袜一区二区三区| 亚洲天堂av在线| 日韩a∨精品日韩在线观看| 久久精品国产91精品亚洲| 国产午夜精品一区二区三区视频 | 中文字幕一区二区三区色视频| 久久青草免费| 国模无码视频一区二区三区| 菠萝蜜影院一区二区免费| 91婷婷韩国欧美一区二区| 国产专区精品| 777.av| 1区1区3区4区产品乱码芒果精品| 欧美中文字幕不卡| 老妇喷水一区二区三区| 日韩激情电影| 国产在线青青草| 国产99久久久欧美黑人| 色老头久久综合| 久久国产免费看| 成人免费观看49www在线观看| 在线免费视频a| 91精品国产综合久久香蕉| 欧美精品 国产精品| 国产精品乡下勾搭老头1| 大香伊人久久精品一区二区| 国产无遮挡在线视频免费观看| 狠狠色综合色区| 亚洲视频自拍偷拍| 亚洲色图视频免费播放| 亚洲日本欧美| 日韩国产91| 中文字幕国产在线| 深田咏美在线x99av| 色综合视频网站| 在线观看中文字幕不卡| 国产一区二区伦理| 欧美人妖在线观看| 日本在线视频观看| 亚洲国产精品久久久久婷蜜芽| 国产精品草莓在线免费观看| 91精品国产高清一区二区三区 | 久久免费视频66| 日本五码在线| 成人在线视频一区二区三区| 欧美在线视频免费播放| 911精品产国品一二三产区| 99在线视频精品| 88国产精品视频一区二区三区| 美女高潮在线观看| 开心丁香婷婷深爱五月| 亚洲综合网中心| 国产精品中文在线| 正在播放国产一区| 在线日韩av片| 亚洲国产精品国自产拍av| 日韩精品一区第一页| 亚洲最好看的视频| 欧美舌奴丨vk视频| 欧美女v视频| 国产精品入口免费软件| 日本一区视频在线| 国产伦精品免费视频| 操人视频在线观看欧美| 欧美酷刑日本凌虐凌虐|