GUI定位還在玩「非黑即白」?浙大團(tuán)隊(duì)提出GUI-G2,顯著提升GUI智能體定位性能
本文第一作者唐飛,浙江大學(xué)碩士生,研究方向是 GUI Agent、多模態(tài)推理等。本文通訊作者沈永亮,浙江大學(xué)百人計(jì)劃研究員,博士生導(dǎo)師,研究方向包括大模型推理、多模態(tài)大模型、智能體等。
1. 研究背景和方法亮點(diǎn)
在人工智能飛速發(fā)展的今天,GUI 智能體(GUI Agent)正在成為下一個(gè)技術(shù)風(fēng)口。這些 "數(shù)字助手" 能夠像人類一樣,通過(guò)自然語(yǔ)言指令自動(dòng)操控電腦、手機(jī)等設(shè)備界面,從發(fā)郵件到編輯文檔,幾乎無(wú)所不能。想象一下,你只需說(shuō)一句 "幫我在地圖上添加個(gè)標(biāo)記",AI 就能自動(dòng)找到按鈕并完成操作 —— 這就是 GUI 智能體的魅力所在。
但要實(shí)現(xiàn)這一切,有一個(gè)關(guān)鍵技術(shù)環(huán)節(jié)不能忽視:GUI Grounding(圖形界面定位)。這是 GUI 智能體的 "眼睛" 和 "手",負(fù)責(zé)將自然語(yǔ)言指令精確映射到屏幕上的具體像素位置。就像人類看到 "點(diǎn)擊保存按鈕" 時(shí)能迅速定位并操作一樣,GUI Grounding 讓 AI 能夠 "看懂" 界面并知道該點(diǎn)擊哪里。
然而,這個(gè)看似簡(jiǎn)單的任務(wù)實(shí)際上充滿挑戰(zhàn)。現(xiàn)有的 GUI Grounding 方法普遍存在一個(gè)致命缺陷:它們把復(fù)雜的空間交互簡(jiǎn)化成了 "非黑即白" 的二元判斷。
具體來(lái)說(shuō),當(dāng)前主流方法采用的是二元獎(jiǎng)勵(lì)機(jī)制 —— 要么完全正確(獎(jiǎng)勵(lì) = 1),要么完全錯(cuò)誤(獎(jiǎng)勵(lì) = 0)。這就像用 "及格 / 不及格" 來(lái)評(píng)價(jià)射擊成績(jī):只要沒(méi)打中靶心,哪怕子彈擦邊而過(guò),也和完全脫靶一樣被判為 "0 分"。
這種評(píng)判標(biāo)準(zhǔn)帶來(lái)了三大問(wèn)題:
- 學(xué)習(xí)信號(hào)稀疏:模型在訓(xùn)練初期很難獲得有效反饋,就像蒙著眼睛射箭,根本不知道朝哪個(gè)方向改進(jìn)。;
- 忽視空間連續(xù)性:界面交互本質(zhì)上是連續(xù)的空間過(guò)程,距離目標(biāo) 1 像素和距離 100 像素理應(yīng)得到不同的評(píng)價(jià),但二元機(jī)制完全忽略了這種差異。;
- 與人類點(diǎn)擊行為不符:作者通過(guò)分析 AITW 數(shù)據(jù)集發(fā)現(xiàn),人類點(diǎn)擊行為天然地遵循以目標(biāo)為中心的高斯分布模式,而現(xiàn)有方法完全背離了這一自然規(guī)律。
更關(guān)鍵的是,GUI 界面元素具有天然的二維空間屬性 —— 它們是有面積、有邊界的區(qū)域,而不是抽象的點(diǎn)。用戶可以在按鈕的任意位置成功點(diǎn)擊,只要在邊界內(nèi)即可。但傳統(tǒng)的二元獎(jiǎng)勵(lì)機(jī)制完全忽略了這種空間特性,將豐富的幾何信息簡(jiǎn)化為單一的 "中心點(diǎn)命中判斷"。

正是在這樣的背景下,一個(gè)關(guān)鍵問(wèn)題擺在了研究者面前:
“GUI Grounding 是否有更適合該任務(wù)特性的獎(jiǎng)勵(lì)機(jī)制?”
來(lái)自浙江大學(xué)的研究團(tuán)隊(duì)提出新方法 ——GUI-G2(GUI Gaussian Grounding Rewards),一個(gè)將 GUI 交互從離散的 "打靶游戲" 轉(zhuǎn)變?yōu)檫B續(xù)的 "空間建模" 的全新方案。

- 論文地址: https://arxiv.org/pdf/2507.15846
- 項(xiàng)目主頁(yè):https://zju-real.github.io/GUI-G2
- GitHub:https://github.com/ZJU-REAL/GUI-G2
- Huggingface Paper: https://huggingface.co/papers/2507.15846
2.GUI-G2 框架:讓 AI 學(xué)會(huì) "人性化" 點(diǎn)擊

面對(duì)傳統(tǒng)二元獎(jiǎng)勵(lì)的局限性,研究團(tuán)隊(duì)提出了 GUI-G2(GUI Gaussian Grounding Rewards)框架,核心思想是:既然人類的點(diǎn)擊行為遵循高斯分布,為什么不讓 AI 也這樣學(xué)習(xí)?
GUI-G2 的創(chuàng)新之處在于將 GUI 元素建模為二維高斯分布,而非簡(jiǎn)單的點(diǎn)或矩形框。這一設(shè)計(jì)帶來(lái)了三個(gè)關(guān)鍵突破:
- 雙重高斯獎(jiǎng)勵(lì)機(jī)制:
a) 高斯點(diǎn)獎(jiǎng)勵(lì)(Gaussian Point Rewards):評(píng)估定位精度,獎(jiǎng)勵(lì)值隨著預(yù)測(cè)中心與目標(biāo)中心的距離呈指數(shù)衰減。就像射擊比賽中,越靠近靶心得分越高。
b) 高斯覆蓋獎(jiǎng)勵(lì)(Gaussian Coverage Rewards):評(píng)估空間重疊度,通過(guò)測(cè)量預(yù)測(cè)分布與目標(biāo)區(qū)域的重疊程度,確保模型理解元素的完整空間范圍。
- 自適應(yīng)方差機(jī)制:
不同界面元素的尺寸差異巨大 —— 從幾像素的小圖標(biāo)到全屏的面板。GUI-G2 引入自適應(yīng)方差機(jī)制,根據(jù)元素實(shí)際尺寸動(dòng)態(tài)調(diào)整高斯分布的 "容錯(cuò)范圍":(1)小圖標(biāo):要求精確定位(小方差)(2)大按鈕:允許更大的空間誤差(大方差)。這就像人類的點(diǎn)擊習(xí)慣 —— 對(duì)小目標(biāo)更加小心,對(duì)大目標(biāo)相對(duì)寬松。
- 連續(xù)空間優(yōu)化:
與傳統(tǒng)方法在目標(biāo)框邊界處出現(xiàn) "獎(jiǎng)勵(lì)懸崖" 不同,GUI-G2在整個(gè)界面平面提供平滑的梯度信號(hào)。模型在任何位置都能獲得有意義的反饋,大大提升了學(xué)習(xí)效率。
3、實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在三個(gè)主流 GUI 定位基準(zhǔn)上進(jìn)行了全面評(píng)估。性能表現(xiàn)亮眼 ScreenSpot: 92.0% 準(zhǔn)確率;ScreenSpot-v2: 93.3% 準(zhǔn)確率;ScreenSpot-Pro: 47.5% 準(zhǔn)確率,比 UI-TARS-72B 提升 24.7%。特別值得注意的是,GUI-G2-7B 僅用 7B 參數(shù)就超越了 72B 參數(shù)的大型模型,展現(xiàn)了驚人的效率優(yōu)勢(shì)。

4、訓(xùn)練動(dòng)態(tài)分析
對(duì)比實(shí)驗(yàn)顯示,傳統(tǒng)稀疏獎(jiǎng)勵(lì)在訓(xùn)練過(guò)程中表現(xiàn)出嚴(yán)重的不穩(wěn)定性 —— 獎(jiǎng)勵(lì)值劇烈波動(dòng),距離目標(biāo)中心的收斂過(guò)程雜亂無(wú)章。而 GUI-G2 展現(xiàn)出單調(diào)平滑的收斂曲線,從 290 像素逐步優(yōu)化到 150 像素,學(xué)習(xí)過(guò)程清晰可控。

5、消融研究證實(shí)設(shè)計(jì)合理性
- 移除覆蓋獎(jiǎng)勵(lì):性能下降至 92.1%(-1.2%)
- 移除點(diǎn)獎(jiǎng)勵(lì):性能下降至 90.2%(-3.1%)
- 限制獎(jiǎng)勵(lì)范圍:僅在目標(biāo)框內(nèi)提供高斯獎(jiǎng)勵(lì),性能下降 4.9%
- 固定方差機(jī)制:使用統(tǒng)一方差參數(shù),性能僅 87.8%,比自適應(yīng)機(jī)制低 5.5 個(gè)百分點(diǎn)

這些結(jié)果證實(shí)了雙重獎(jiǎng)勵(lì)機(jī)制的必要性,以及全空間連續(xù)反饋的重要作用。
6、虛假獎(jiǎng)勵(lì)實(shí)驗(yàn):驗(yàn)證方法的本質(zhì)有效性
為了證明 GUI-G2 的提升并非來(lái)自于強(qiáng)化學(xué)習(xí)的 "虛假刺激效應(yīng)",研究團(tuán)隊(duì)特意設(shè)計(jì)了對(duì)照實(shí)驗(yàn) —— 使用完全隨機(jī)的獎(jiǎng)勵(lì)信號(hào)進(jìn)行訓(xùn)練:
- 連續(xù)隨機(jī)獎(jiǎng)勵(lì) U (0,1):從 90.6% 逐步下降至 87.9%(-2.7%)
- 二元隨機(jī)獎(jiǎng)勵(lì) {0,1}:從 88.6% 快速跌至 84.5%(-4.1%)
實(shí)驗(yàn)結(jié)果表明,虛假的隨機(jī)獎(jiǎng)勵(lì)只會(huì)讓性能持續(xù)惡化,這有力證明了 GUI-G2 的性能提升源于其科學(xué)的空間建模機(jī)制,而非強(qiáng)化學(xué)習(xí)過(guò)程中的偶然因素。

7、GUI-G2總結(jié)
GUI-G2通過(guò)三個(gè)核心創(chuàng)新重新定義了GUI交互的本質(zhì):引入雙重高斯獎(jiǎng)勵(lì)機(jī)制,同時(shí)優(yōu)化定位精度和空間覆蓋;設(shè)計(jì)自適應(yīng)方差機(jī)制,根據(jù)元素尺寸動(dòng)態(tài)調(diào)整容錯(cuò)范圍;實(shí)現(xiàn)連續(xù)空間優(yōu)化,為模型提供平滑的全域梯度信號(hào)。這一框架將GUI定位從稀疏的二元優(yōu)化轉(zhuǎn)變?yōu)槊芗倪B續(xù)獎(jiǎng)勵(lì)反饋,在三個(gè)基準(zhǔn)測(cè)試中均取得顯著提升。


































