GUI定位還在玩「非黑即白」？浙大團(tuán)隊(duì)提出GUI-G2，顯著提升GUI智能體定位性能

2025-08-04 09:13:00

在人工智能飛速發(fā)展的今天，GUI 智能體（GUI Agent）正在成為下一個(gè)技術(shù)風(fēng)口。

本文第一作者唐飛，浙江大學(xué)碩士生，研究方向是 GUI Agent、多模態(tài)推理等。本文通訊作者沈永亮，浙江大學(xué)百人計(jì)劃研究員，博士生導(dǎo)師，研究方向包括大模型推理、多模態(tài)大模型、智能體等。

1. 研究背景和方法亮點(diǎn)

在人工智能飛速發(fā)展的今天，GUI 智能體（GUI Agent）正在成為下一個(gè)技術(shù)風(fēng)口。這些 "數(shù)字助手" 能夠像人類一樣，通過(guò)自然語(yǔ)言指令自動(dòng)操控電腦、手機(jī)等設(shè)備界面，從發(fā)郵件到編輯文檔，幾乎無(wú)所不能。想象一下，你只需說(shuō)一句 "幫我在地圖上添加個(gè)標(biāo)記"，AI 就能自動(dòng)找到按鈕并完成操作 —— 這就是 GUI 智能體的魅力所在。

但要實(shí)現(xiàn)這一切，有一個(gè)關(guān)鍵技術(shù)環(huán)節(jié)不能忽視：GUI Grounding（圖形界面定位）。這是 GUI 智能體的 "眼睛" 和 "手"，負(fù)責(zé)將自然語(yǔ)言指令精確映射到屏幕上的具體像素位置。就像人類看到 "點(diǎn)擊保存按鈕" 時(shí)能迅速定位并操作一樣，GUI Grounding 讓 AI 能夠 "看懂" 界面并知道該點(diǎn)擊哪里。

然而，這個(gè)看似簡(jiǎn)單的任務(wù)實(shí)際上充滿挑戰(zhàn)。現(xiàn)有的 GUI Grounding 方法普遍存在一個(gè)致命缺陷：它們把復(fù)雜的空間交互簡(jiǎn)化成了 "非黑即白" 的二元判斷。

具體來(lái)說(shuō)，當(dāng)前主流方法采用的是二元獎(jiǎng)勵(lì)機(jī)制 —— 要么完全正確（獎(jiǎng)勵(lì) = 1），要么完全錯(cuò)誤（獎(jiǎng)勵(lì) = 0）。這就像用 "及格 / 不及格" 來(lái)評(píng)價(jià)射擊成績(jī)：只要沒(méi)打中靶心，哪怕子彈擦邊而過(guò)，也和完全脫靶一樣被判為 "0 分"。

這種評(píng)判標(biāo)準(zhǔn)帶來(lái)了三大問(wèn)題：

學(xué)習(xí)信號(hào)稀疏：模型在訓(xùn)練初期很難獲得有效反饋，就像蒙著眼睛射箭，根本不知道朝哪個(gè)方向改進(jìn)。；
忽視空間連續(xù)性：界面交互本質(zhì)上是連續(xù)的空間過(guò)程，距離目標(biāo) 1 像素和距離 100 像素理應(yīng)得到不同的評(píng)價(jià)，但二元機(jī)制完全忽略了這種差異。；
與人類點(diǎn)擊行為不符：作者通過(guò)分析 AITW 數(shù)據(jù)集發(fā)現(xiàn)，人類點(diǎn)擊行為天然地遵循以目標(biāo)為中心的高斯分布模式，而現(xiàn)有方法完全背離了這一自然規(guī)律。

更關(guān)鍵的是，GUI 界面元素具有天然的二維空間屬性 —— 它們是有面積、有邊界的區(qū)域，而不是抽象的點(diǎn)。用戶可以在按鈕的任意位置成功點(diǎn)擊，只要在邊界內(nèi)即可。但傳統(tǒng)的二元獎(jiǎng)勵(lì)機(jī)制完全忽略了這種空間特性，將豐富的幾何信息簡(jiǎn)化為單一的 "中心點(diǎn)命中判斷"。

正是在這樣的背景下，一個(gè)關(guān)鍵問(wèn)題擺在了研究者面前：

“GUI Grounding 是否有更適合該任務(wù)特性的獎(jiǎng)勵(lì)機(jī)制？”

來(lái)自浙江大學(xué)的研究團(tuán)隊(duì)提出新方法 ——GUI-G2（GUI Gaussian Grounding Rewards），一個(gè)將 GUI 交互從離散的 "打靶游戲" 轉(zhuǎn)變?yōu)檫B續(xù)的 "空間建模" 的全新方案。

論文地址： https://arxiv.org/pdf/2507.15846
項(xiàng)目主頁(yè)：https://zju-real.github.io/GUI-G2
GitHub：https://github.com/ZJU-REAL/GUI-G2
Huggingface Paper: https://huggingface.co/papers/2507.15846

2.GUI-G2 框架：讓 AI 學(xué)會(huì) "人性化" 點(diǎn)擊

面對(duì)傳統(tǒng)二元獎(jiǎng)勵(lì)的局限性，研究團(tuán)隊(duì)提出了 GUI-G2（GUI Gaussian Grounding Rewards）框架，核心思想是：既然人類的點(diǎn)擊行為遵循高斯分布，為什么不讓 AI 也這樣學(xué)習(xí)？

GUI-G2 的創(chuàng)新之處在于將 GUI 元素建模為二維高斯分布，而非簡(jiǎn)單的點(diǎn)或矩形框。這一設(shè)計(jì)帶來(lái)了三個(gè)關(guān)鍵突破：

雙重高斯獎(jiǎng)勵(lì)機(jī)制:

a) 高斯點(diǎn)獎(jiǎng)勵(lì)（Gaussian Point Rewards）：評(píng)估定位精度，獎(jiǎng)勵(lì)值隨著預(yù)測(cè)中心與目標(biāo)中心的距離呈指數(shù)衰減。就像射擊比賽中，越靠近靶心得分越高。

b) 高斯覆蓋獎(jiǎng)勵(lì)（Gaussian Coverage Rewards）：評(píng)估空間重疊度，通過(guò)測(cè)量預(yù)測(cè)分布與目標(biāo)區(qū)域的重疊程度，確保模型理解元素的完整空間范圍。

自適應(yīng)方差機(jī)制：

不同界面元素的尺寸差異巨大 —— 從幾像素的小圖標(biāo)到全屏的面板。GUI-G2 引入自適應(yīng)方差機(jī)制，根據(jù)元素實(shí)際尺寸動(dòng)態(tài)調(diào)整高斯分布的 "容錯(cuò)范圍"：（1）小圖標(biāo)：要求精確定位（小方差）（2）大按鈕：允許更大的空間誤差（大方差）。這就像人類的點(diǎn)擊習(xí)慣 —— 對(duì)小目標(biāo)更加小心，對(duì)大目標(biāo)相對(duì)寬松。

連續(xù)空間優(yōu)化：

與傳統(tǒng)方法在目標(biāo)框邊界處出現(xiàn) "獎(jiǎng)勵(lì)懸崖" 不同，GUI-G2在整個(gè)界面平面提供平滑的梯度信號(hào)。模型在任何位置都能獲得有意義的反饋，大大提升了學(xué)習(xí)效率。

3、實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在三個(gè)主流 GUI 定位基準(zhǔn)上進(jìn)行了全面評(píng)估。性能表現(xiàn)亮眼 ScreenSpot: 92.0% 準(zhǔn)確率；ScreenSpot-v2: 93.3% 準(zhǔn)確率；ScreenSpot-Pro: 47.5% 準(zhǔn)確率，比 UI-TARS-72B 提升 24.7%。特別值得注意的是，GUI-G2-7B 僅用 7B 參數(shù)就超越了 72B 參數(shù)的大型模型，展現(xiàn)了驚人的效率優(yōu)勢(shì)。

4、訓(xùn)練動(dòng)態(tài)分析

對(duì)比實(shí)驗(yàn)顯示，傳統(tǒng)稀疏獎(jiǎng)勵(lì)在訓(xùn)練過(guò)程中表現(xiàn)出嚴(yán)重的不穩(wěn)定性 —— 獎(jiǎng)勵(lì)值劇烈波動(dòng)，距離目標(biāo)中心的收斂過(guò)程雜亂無(wú)章。而 GUI-G2 展現(xiàn)出單調(diào)平滑的收斂曲線，從 290 像素逐步優(yōu)化到 150 像素，學(xué)習(xí)過(guò)程清晰可控。

5、消融研究證實(shí)設(shè)計(jì)合理性

移除覆蓋獎(jiǎng)勵(lì)：性能下降至 92.1%（-1.2%）
移除點(diǎn)獎(jiǎng)勵(lì)：性能下降至 90.2%（-3.1%）
限制獎(jiǎng)勵(lì)范圍：僅在目標(biāo)框內(nèi)提供高斯獎(jiǎng)勵(lì)，性能下降 4.9%
固定方差機(jī)制：使用統(tǒng)一方差參數(shù)，性能僅 87.8%，比自適應(yīng)機(jī)制低 5.5 個(gè)百分點(diǎn)

這些結(jié)果證實(shí)了雙重獎(jiǎng)勵(lì)機(jī)制的必要性，以及全空間連續(xù)反饋的重要作用。

6、虛假獎(jiǎng)勵(lì)實(shí)驗(yàn)：驗(yàn)證方法的本質(zhì)有效性

為了證明 GUI-G2 的提升并非來(lái)自于強(qiáng)化學(xué)習(xí)的 "虛假刺激效應(yīng)"，研究團(tuán)隊(duì)特意設(shè)計(jì)了對(duì)照實(shí)驗(yàn) —— 使用完全隨機(jī)的獎(jiǎng)勵(lì)信號(hào)進(jìn)行訓(xùn)練：

連續(xù)隨機(jī)獎(jiǎng)勵(lì) U (0,1)：從 90.6% 逐步下降至 87.9%（-2.7%）
二元隨機(jī)獎(jiǎng)勵(lì) {0,1}：從 88.6% 快速跌至 84.5%（-4.1%）

實(shí)驗(yàn)結(jié)果表明，虛假的隨機(jī)獎(jiǎng)勵(lì)只會(huì)讓性能持續(xù)惡化，這有力證明了 GUI-G2 的性能提升源于其科學(xué)的空間建模機(jī)制，而非強(qiáng)化學(xué)習(xí)過(guò)程中的偶然因素。

7、GUI-G2總結(jié)

GUI-G2通過(guò)三個(gè)核心創(chuàng)新重新定義了GUI交互的本質(zhì)：引入雙重高斯獎(jiǎng)勵(lì)機(jī)制，同時(shí)優(yōu)化定位精度和空間覆蓋；設(shè)計(jì)自適應(yīng)方差機(jī)制，根據(jù)元素尺寸動(dòng)態(tài)調(diào)整容錯(cuò)范圍；實(shí)現(xiàn)連續(xù)空間優(yōu)化，為模型提供平滑的全域梯度信號(hào)。這一框架將GUI定位從稀疏的二元優(yōu)化轉(zhuǎn)變?yōu)槊芗倪B續(xù)獎(jiǎng)勵(lì)反饋，在三個(gè)基準(zhǔn)測(cè)試中均取得顯著提升。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心