Google 再出手:Gemini 2.5「Computer Use」讓AI學(xué)會(huì)真正動(dòng)手操作瀏覽器 原創(chuàng) 精華
當(dāng)我們談?wù)摗癆I代理(AI Agent)”時(shí),很多人想到的是能幫你寫文檔、總結(jié)網(wǎng)頁(yè)、生成報(bào)告的智能助手。但有一個(gè)問(wèn)題一直沒(méi)被真正解決——它們都“看得懂”網(wǎng)頁(yè),卻“點(diǎn)不了”網(wǎng)頁(yè)。
而就在本周,Google AI 給出了解法: 推出全新的 Gemini 2.5 Computer Use(電腦操作版),一個(gè)能在瀏覽器中真實(shí)執(zhí)行點(diǎn)擊、輸入、拖拽等交互操作的模型。 這意味著,AI 不再只是讀懂網(wǎng)頁(yè),而是能像一個(gè)“虛擬助手”那樣,親自替你完成操作流程。
一、從“會(huì)看”到“會(huì)動(dòng)”:AI瀏覽器控制的突破
過(guò)去的AI代理往往停留在“觀察層面”——它們可以理解網(wǎng)頁(yè)結(jié)構(gòu)、預(yù)測(cè)下一步操作,但無(wú)法真正與瀏覽器互動(dòng)。 Gemini 2.5 Computer Use 則打通了這道壁壘。
Google 為它設(shè)計(jì)了一套受限的 Action API(動(dòng)作接口),可執(zhí)行13種標(biāo)準(zhǔn)化操作,包括:
- ?
?open_web_browser??:打開(kāi)瀏覽器 - ?
?navigate??:訪問(wèn)指定URL - ?
?click_at??? /??hover_at??:點(diǎn)擊或懸停在特定坐標(biāo) - ?
?type_text_at??:在輸入框中輸入文字 - ?
?scroll_document??? /??scroll_at??:滾動(dòng)網(wǎng)頁(yè) - ?
?drag_and_drop??:拖拽操作 - 以及通用動(dòng)作如?
?go_back??、??wait_5_seconds?? 等
這些動(dòng)作由客戶端執(zhí)行(例如 Playwright 或 Browserbase),并在每次操作后重新截圖、更新URL、進(jìn)入下一步循環(huán)。 整個(gè)過(guò)程形成了一個(gè)“AI觀察—計(jì)劃—執(zhí)行—校驗(yàn)”的閉環(huán),使代理可以安全地在真實(shí)網(wǎng)頁(yè)上完成任務(wù)。

二、Google 如何保證安全與可控?
AI能“動(dòng)手”后,最先需要解決的問(wèn)題不是智能,而是安全。
Google在模型中內(nèi)置了多層安全機(jī)制:
- 受限操作空間:模型只能執(zhí)行13類預(yù)定義動(dòng)作,避免自由執(zhí)行系統(tǒng)命令;
- 確認(rèn)機(jī)制:涉及高風(fēng)險(xiǎn)操作(如支付、發(fā)送消息、訪問(wèn)敏感數(shù)據(jù))時(shí),AI必須請(qǐng)求用戶確認(rèn);
- 瀏覽器范圍限制:目前模型僅針對(duì)Web瀏覽器優(yōu)化,不具備系統(tǒng)級(jí)控制權(quán)限;
- 自定義擴(kuò)展:移動(dòng)端或特定業(yè)務(wù)場(chǎng)景可替換自定義動(dòng)作,如?
?open_app??、??go_home?? 等,以增強(qiáng)靈活性。
這樣的設(shè)計(jì)既讓AI具備執(zhí)行力,又確保操作過(guò)程可監(jiān)控、可回滾。 對(duì)企業(yè)來(lái)說(shuō),這種“受控的執(zhí)行力”正是自動(dòng)化落地的關(guān)鍵。
三、性能實(shí)測(cè):在Web控制領(lǐng)域遙遙領(lǐng)先
根據(jù) Google 官方與第三方評(píng)測(cè)平臺(tái) Browserbase 的數(shù)據(jù),Gemini 2.5 Computer Use 在多個(gè)UI控制基準(zhǔn)測(cè)試中表現(xiàn)出色:
測(cè)試集 | 指標(biāo) | 成績(jī)(Pass@1) | 備注 |
Online-Mind2Web | 69.0% | 人類評(píng)估一致認(rèn)可 | |
Browserbase-OM2W | 65.7% | 同步測(cè)試環(huán)境 | |
WebVoyager | 79.9% | 延遲與精度領(lǐng)先 | |
AndroidWorld(移動(dòng)端) | 69.7% | 通過(guò)自定義動(dòng)作兼容 |
Google報(bào)告顯示,在標(biāo)準(zhǔn)化測(cè)試下,模型可實(shí)現(xiàn)約70%的準(zhǔn)確率,平均延遲225秒。 這意味著,它不僅聰明,而且執(zhí)行穩(wěn)定、延遲可控。

四、落地信號(hào):UI測(cè)試和自動(dòng)化運(yùn)營(yíng)的“救星”
除了實(shí)驗(yàn)室數(shù)據(jù),更值得關(guān)注的是早期生產(chǎn)反饋。
- Google Payments團(tuán)隊(duì)報(bào)告稱,該模型修復(fù)了超過(guò)60%此前無(wú)法通過(guò)的自動(dòng)化UI測(cè)試任務(wù)。換句話說(shuō),過(guò)去靠腳本難以復(fù)現(xiàn)或調(diào)試的測(cè)試流程,如今AI能自動(dòng)修復(fù)并執(zhí)行。
- 外部早期測(cè)試方Poke.com則表示,使用 Gemini 2.5 Computer Use 的自動(dòng)化流程相比其他方案**速度提升約50%**。
這兩個(gè)信號(hào)揭示出一個(gè)趨勢(shì):
從測(cè)試到運(yùn)營(yíng),AI正在逐步接管“點(diǎn)擊與執(zhí)行”的繁瑣環(huán)節(jié)。
想象一下,未來(lái)瀏覽器上的一切機(jī)械性操作——填寫表單、上傳文件、檢索數(shù)據(jù)、執(zhí)行測(cè)試——都能交給AI去做。 企業(yè)研發(fā)團(tuán)隊(duì)、QA測(cè)試團(tuán)隊(duì)、甚至個(gè)人用戶,都將因此獲益。
五、Gemini 2.5的意義:AI進(jìn)入“執(zhí)行智能”時(shí)代
Gemini 2.5 Computer Use 之所以值得關(guān)注,不僅在于功能新穎,更在于它標(biāo)志著AI代理的形態(tài)轉(zhuǎn)折點(diǎn):
- 從文本智能 → 操作智能以前的AI理解語(yǔ)言,如今的AI能理解“界面語(yǔ)義”并執(zhí)行動(dòng)作。
- 從靜態(tài)回答 → 動(dòng)態(tài)執(zhí)行不再是給出建議,而是直接替你去點(diǎn)、去輸、去驗(yàn)證。
- 從可交互 → 可行動(dòng)真正意義上讓“AI助理”變成“AI操作員”,具備執(zhí)行閉環(huán)。
未來(lái),隨著Google持續(xù)完善API安全規(guī)范、延展至桌面與移動(dòng)操作系統(tǒng)層面, 這類“行動(dòng)型AI”有望成為企業(yè)級(jí)自動(dòng)化的主力引擎。
它讓我們第一次看到一個(gè)可行的未來(lái)場(chǎng)景:
你對(duì)AI說(shuō)“幫我導(dǎo)出昨天的銷售數(shù)據(jù)發(fā)給客戶”, 它不再只是生成腳本,而是——打開(kāi)瀏覽器 → 登錄 → 點(diǎn)擊 → 導(dǎo)出 → 郵件發(fā)送。 整個(gè)過(guò)程,無(wú)需人類手動(dòng)參與。
六、結(jié)語(yǔ):AI代理的下一個(gè)拐點(diǎn)
Gemini 2.5 Computer Use 是AI邁向“可執(zhí)行智能”的關(guān)鍵一步。 它讓AI不再是旁觀者,而是真正參與到數(shù)字世界的每一次點(diǎn)擊中。
這不僅意味著辦公自動(dòng)化的重塑,也預(yù)示著未來(lái)軟件交互的方向: 用戶不再需要學(xué)習(xí)如何操作界面,而是通過(guò)自然語(yǔ)言,讓AI替你完成所有動(dòng)作。
可以預(yù)見(jiàn),在未來(lái)的一兩年里,AI瀏覽器控制能力將成為智能代理系統(tǒng)的基礎(chǔ)能力。 誰(shuí)先掌握可執(zhí)行的AI代理,誰(shuí)就能率先構(gòu)建新一代的人機(jī)交互生態(tài)。
本文轉(zhuǎn)載自???Halo咯咯?? 作者:基咯咯

















