国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

讓GUI智能體不再「過度執行」,上海交大、Meta聯合發布OS-Kairos系統

人工智能 新聞
本論文提出了 OS-Kairos,一種具有自適應交互能力的新型 GUI 智能體系統。

本文第一作者是上海交通大學計算機學院三年級博士生程彭洲,研究方向為多模態大模型推理、AI Agent、Agent 安全等。通訊作者為張倬勝助理教授和劉功申教授。

一、論文概述

1.1 研究背景

隨著多模態大語言模型(Multimodal Large Language Models, MLLMs)的快速發展,越來越多的研究聚焦于構建能夠在圖形用戶界面(GUI)中執行復雜任務的智能體。這些智能體利用視覺感知與語言理解能力,已在移動應用、Web 導航及桌面操作等領域顯示出巨大潛力。然而,現有系統大多采用 “全自動” 執行范式,在面對真實場景中的模糊指令、環境干擾或系統異常時,常出現誤操作或任務失敗等現象。這類 “過度執行”(Over-execution)問題,嚴重限制了 GUI 智能體在實際應用中的安全性與可靠性。

圖片

三種復雜場景

1.2 研究問題

本研究關注一個核心問題:如何賦予 GUI 智能體自我評估其行為置信度的能力,并基于此實現自主與人工交互間的動態切換,從而在復雜環境中提升任務完成率與交互效率。具體而言,當前 GUI 智能體在操作中缺乏對 “當前步驟是否需要人工指導” 的判斷能力,一旦模型在某一步操作中產生低置信度的決策,仍可能繼續執行錯誤行為,導致后續任務鏈條崩潰。論文嘗試解決的正是這種因無法判斷自身能力邊界而導致的系統性失誤。

圖片

自主智能體易產生 “過度執行”,而 OS-Kairos 會精準的請求人類介入

1.3 主要貢獻

本論文提出了 OS-Kairos,一種具有自適應交互能力的新型 GUI 智能體系統,其主要貢獻如下:

(i)引入置信度預測機制,讓 GUI 智能體能夠在每一步操作中評估自身執行的信心,并據此決定是否調用人類或高級模型介入,實現真正的 “可控自主”。

(ii)設計了協同探測框架(Collaborative Probing Framework),通過 GPT-4o 與界面解析模型協同,為每一個交互步驟自動打分,生成高質量的含置信度標注的操作軌跡數據集。

(iii)提出置信驅動交互策略(Confidence-driven Interaction),將置信度評分作為模型訓練的一部分,通過監督學習將置信判斷能力整合進 GUI 智能體本身,并通過閾值實現自適應調節。

(iv)OS-Kairos 在我們精選的復雜場景數據集和完善的移動基準上都遠遠優于現有模型,具有有效性、通用性、可擴展性和效率的優點。

圖片

  • 論文標題:OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents
  • 論文鏈接:https://arxiv.org/abs/2503.16465
  • 論文代碼:https://github.com/Wuzheng02/OS-Kairos

二、方法與理論

本研究提出了一種新型的 GUI 智能體系統 OS-Kairos,旨在通過操作置信度的引入與動態人機協作機制,解決現有智能體在復雜任務中 “過度執行” 的問題。整個系統方法框架由兩大核心機制組成:協同探測框架與置信驅動交互策略。

2.1 協同探測框架

圖片

協作探測框架

該機制旨在為每個交互步驟生成高質量的置信度標注數據,是 OS-Kairos 訓練和推理能力構建的基礎,主要包含以下三個階段:

1)復雜任務指令收集與擴展

研究團隊從公共數據集與人類專家設計中收集典型的復雜指令(如模糊描述、權限缺失、環境劫持等),再利用 GPT-4 等生成式模型對其擴展,以保證覆蓋多語言、多 APP、多場景。

2)置信度打分機制設計

核心機制采用 “Actor-Critic” 協同范式:

  • Probing Agent:執行用戶指令;
  • Critic Model:基于 GPT-4o 和 UI 結構解析,對每一步操作給予置信度評分(1~5 分);
  • 若評分低于 5,裁判將給出正確操作建議并繼續測試,直到任務完成。

通過這種協同探測過程,系統能夠自動生成含有操作 - 評分配對的完整 GUI 軌跡數據。

3) 數據清洗與優化

生成的數據進一步經過一致性驗證與軌跡修正,以確保每一步操作的執行意圖與置信度合理匹配,為后續置信度集成提供高質量訓練數據。

2.2 置信驅動交互策略

在獲得高質量軌跡數據后,研究者設計了一套結合置信度分數的模型訓練與推理策略,使 GUI 智能體具備 “按需請求人類干預” 的能力:

1)聯合預測訓練

在訓練階段,模型基于指令微調在不改變動作預測能力下,植入預測該動作的置信度分值。該訓練方式確保模型具備準確行為預測與自信程度評估的雙重能力。

2)動態交互控制機制

在部署階段,系統通過設定一個置信度閾值 γ,對每一步操作進行判斷:

  • 若置信度 ≥ γ,自動執行;
  • 若置信度 < γ,觸發人類干預或高級模型輔助。

這一機制類似于大語言模型的溫度系數,可以根據應用需求靈活調節,兼顧效率與可靠性。例如:γ = 1 時,模型完全自動執行;γ = 5 時,模型步步請求干預;γ = 3~4 時實現最優的人機協同平衡。

三、實驗與結果

3.1 實驗設置

為系統評估 OS-Kairos 的性能,作者在多個層面構建了完整的實驗體系,涵蓋真實復雜場景、自構建數據集與公開基準,并對比多種類型的現有 GUI 智能體模型。

3.1.1 數據集

1)復雜場景測試集(自構建):作者利用真實 Android 設備、12 個常見 App(如 Amazon、微信、設置等)與 12 類任務主題(如購物、登錄、搜索等)構建了 1000 條復雜任務指令,涵蓋類型包括:

a) 任務類型涵蓋:模糊指令(如省略主語、目標不明確)

b) 環境干擾(如彈窗、網絡斷連)

c) 異常狀態(如登錄過期、權限不足)

每條任務指令被逐步執行并由 GPT-4o 輔助評分,生成具有置信度標注的完整 GUI 軌跡數據。

2)公開基準數據集

a) AITZ(Android In The Zoo):包含復雜鏈式操作,強調 reasoning 和 action planning。

b) Meta-GUI:結合多模態對話和 GUI 控制,支持任務引導與精細指令執行。

數據集被劃分為訓練集(80%)和測試集(20%),用于模型訓練與評估。

3.1.2 評估指標

為了全面評價 GUI 智能體的表現,作者采用了以下多個指標:動作類型準確率(Type)、步驟級成功率(SR)、任務完成率(TSR)、人機介入成功率(HSR)、干預精度(IP)等。

3.1.3 比較模型設置

實驗的設置分為 Fine-tuning 和 Zero-shot 模式,對比的模型涵蓋三類:

1) API 接口型模型

a) GPT-4o

b) GPT-4V-Plus

c) Qwen-VL-MAX

2) 開源多模態模型

a) Qwen2-VL-7B

b) OS-Atlas-Pro-7B

c) Auto-UI

3.1.4 模型與訓練設置

為了確保實驗的公平性,每個數據集的任務軌跡被隨機劃分為 80% 用于訓練數據,20% 用于測試數據。在 Zero-shot 中,模型直接通過 prompt 學習進行評估,不依賴任何額外的微調。在 Fine-tuning 設置下,模型在對應的數據集上進行 8 輪訓練,學習率為 1e-5。在交互模式下,OS-Kairos 使用一個默認的置信度閾值 γ=4,當當前步驟的置信度低于此閾值時,系統會請求人工干預。在整個過程中,GPT-4o 被用作裁判模型對每一步的動作進行評分,確保評估的一致性和可靠性。

3.2 實驗結果

3.2.1 主要實驗結果

圖片

表 1: Zero-shot 設置下 OS-Kairos 與基線比較的結果

1)在 Zero-shot 設置下,OS-Kairos 無需改變模型能力,僅通過引入置信度驅動的自適應交互機制,就顯著優于多個基線模型。在三個數據集上均表現出色,復雜場景下實現了 95.90% 的步驟成功率和 88.20% 的任務完成率。相比之下,現有 API 模型雖具備通用性,但因無法識別關鍵復雜步驟,易出現過度執行而導致任務失敗,凸顯了 OS-Kairos 在可靠性。

圖片

表 2: Fine-tuning 設置下 OS-Kairos 與基線比較的結果

2)盡管 Fine-tuning 在一定程度上緩解了 GUI 智能體的過度執行問題,但是 OS-Kairos 依然表現出更強的性能,尤其在復雜場景中,其任務完成率(TSR)帶來 26.09% 到 85.72% 的絕對提升。通過識別如 SCROLL 等關鍵復雜步驟,OS-Kairos 實現了更精準的優化,而傳統微調方法則可能引入操作偏差或面臨優化瓶頸。

圖片

三種數據集下介入精度分析

3)OS-Kairos 的置信度評分機制實現了高效的人機交互(HSR)。在復雜場景與 Meta-GUI 中,其對自主執行步驟的判斷高度準確,AP 指標分別達到 96.44% 和 93.18%,同時在人為干預步驟中保持 70% 以上的干預精度(IP)。這表明 OS-Kairos 能有效區分何時應請求幫助、何時應獨立執行,避免不必要的干預。研究還指出,結合高質量采樣,系統在如 AITZ 等數據集中的表現有望進一步提升。

3.2.2 實驗分析

3.2.2.1 動態評估

圖片

以往的基準評估一般基于靜態分析,難以反映 GUI 智能體在真實環境中的自主規劃與泛化能力。為此,論文在移動設備上報告了實際任務完成率(TSR)。結果顯示,現有基線模型的 TSR 僅為 4% 和 26%,GPT-4o 為 36%,而 OS-Kairos 在介入時通過引入 GPT-4o 決策,達到了這一上限。在引入人工干預后,OS-Kairos 的 TSR 從 32% 提升至 70%,充分證明自適應交互機制在真實場景中具有顯著優勢,是實現高效 GUI 智能體的有效范式。

3.2.2.2 效率評估

表 4 還展示了 OS-Kairos 在真實環境中的執行效率。基于 50 條指令統計,人工執行的最優步驟數約為 429 步。在最大操作步數限制為 10 的條件下,基線模型在遇到復雜步驟時普遍存在過度執行現象。而 OS-Kairos 更貼近人類的操作行為,其相對效率(RE)分別達到 86.42% 和 93.47%,顯著優于基線,體現了其高效且穩健的交互能力。

3.2.2.3 置信度集成范式評估

表 5 對比了 OS-Kairos 與基于 prompt 的交互模型,結果顯示 OS-Kairos 的交互機制顯著優于 prompt 驅動范式,尤其在介入成功率(HSR)上超越了 prompt 模式下的 OS-Atlas-Pro-7B。盡管 GPT-4o 和 GLM-4V-Plus 具備較強的感知和定位能力,API 型 GUI Agent 仍表現出不穩定性,易出現過度執行,影響整體效果。在開源模型中,Qwen2-VL-7B 的表現相對更穩定,而 OS-Atlas-Pro-7B 在 prompt 模式下指令執行能力被嚴重干擾。

圖片

3.2.2.4 模型和數據分析

圖片

圖片

盡管基于 7B 模型構建,OS-Kairos 通過置信度評分與數據蒸餾,可有效遷移至 2B~7B 模型。在 Qwen2-VL-2B、4B 和 7B 上分別達到 85.09%、77.64% 和 76.40% 的 TSR,表現出良好的精度與兼容性,適用于資源受限環境部署。OS-Kairos 在不同數據規模下依然保持穩定表現,TSR 可達 76.19%~88.20%。即便使用少量探測數據,置信度機制也能有效支撐模型訓練,成本遠低于微調。

3.2.2.5 交互敏感度分析

圖片

圖片

OS-Kairos 通過調節置信度閾值 γ 實現自適應交互。消融實驗表明,γ 提高可顯著提升 TSR 和 SR,而 HSR 與操作準確率保持穩定,說明其能有效識別復雜步驟,減少過度執行。在 γ = 2 時,僅需 19% 的人工干預即可達到接近微調的效果,展現出良好的靈活性與實用性。

四、討論與啟示

4.1 主要發現總結

本研究通過全面的實驗評估,得出了以下主要發現:

1.OS-Kairos 在多個數據集上顯著優于 prompt-based 基線模型及微調模型,充分證明自適應交互機制對于提升 GUI Agent 任務完成的可靠性與魯棒性具有關鍵作用。

2. 置信驅動交互高效穩定:OS-Kairos 能穩定區分何時需要干預,有效避免過度執行。

3. 真實設備測試表現優越:在移動設備上運行時,OS-Kairos TSR 達 32%(無干預)至 70%(有干預),遠超現有開源和商用模型,接近 GPT-4o 的上限水平。

4. 模型規模與數據成本友好:置信度機制可遷移至 2B~7B 模型,在資源受限場景中依然保持 76% 以上的 TSR,僅需少量探測數據即可訓練,成本遠低于全量微調。

4.2 啟示

4.2.1 對從業者的啟示

1. 增強系統可靠性:置信度驅動的自適應交互機制可顯著減少錯誤操作,提升系統在復雜真實場景中的穩定性與安全性。

2. 支持人機協作設計:通過動態決策是否請求用戶干預,系統可靈活權衡自主性與可控性,適用于高風險任務如金融、醫療等場景。

4.2.2 對研究社區的啟示

1. 拓展交互智能研究范式:本研究強調從 “全自主執行” 轉向 “置信度引導下的自適應協作”,為多模態 GUI 智能體設計提供新思路。

2. 提出具遷移性的框架設計:驗證了數據蒸餾與置信機制在不同模型規模下的一致性,鼓勵發展輕量級、可推廣的交互方法。

3. 推動標準評估體系更新:指出靜態測試局限,倡導引入真實環境 + 交互能力評估的新標準,有助于更全面地衡量 GUI Agent 的實用性與可靠性。

4.3 批判性分析

1. 適用范圍與可推廣性:目前系統主要驗證于移動 GUI 環境,對于桌面端、Web 端尚未進行測試,其泛化能力在更復雜的多模態交互系統中仍需驗證。

2. 置信度分數:置信度分數是來自 Actor-Critic 探測架構下的 GPT-4o 給出,其準確性需要進一步驗證。

五. 局限性與未來工作

5.1 局限性

1. 任務類型與應用場景有限:實驗主要集中在移動端單任務 GUI 環境,對于桌面端、多窗口、Web 或混合界面等復雜交互形式尚未驗證。

2. 依賴外部大模型評分:當前系統在訓練與評估中使用 GPT-4o 作為置信度評分器,提升了標注質量,但其準確性需進一步優化。

3. 過度介入:OS-Kairos 通過置信度分數評估是否需要人類介入,但過度介入會影響 GUI Agent 的自動化。

5.2 未來工作

1. 實現模型內部置信度量化:當前置信度依賴外部模型,未來可探索在智能體內部實現置信度量化,提升推理效率與部署實用性。

2. 優化交互決策策略:為避免過度執行或頻繁干預,可引入動態閾值或強化學習策略,實現更靈活、高效的人機協作控制。

3. 支持復雜任務與跨平臺部署:推動模型在桌面端和 Web 平臺的應用,增強其處理復雜任務和多模態語音輸入的能力,提升泛化性與實用性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-24 13:04:01

2024-10-18 15:20:00

2025-07-16 09:05:00

AI評測模型

2024-07-08 06:50:00

2025-05-27 15:23:05

智能體訓練AI

2020-07-23 09:32:50

AI 數據人工智能

2021-07-22 15:25:14

開源技術 框架

2025-03-13 13:10:00

2025-09-22 17:59:26

2009-05-18 09:25:00

2025-10-28 09:03:08

2025-06-11 09:17:00

2025-07-10 08:50:00

2024-04-01 07:25:00

AI框架

2022-03-09 09:23:17

AI引擎檢測

2014-04-15 15:49:19

博世2014

2025-04-23 12:09:25

RL大模型進化

2009-07-03 11:42:00

點贊
收藏

51CTO技術棧公眾號

欧美精品日韩少妇| 7777精品| 国产精品久久久久久模特| 日本在线视频一区| 久久成人综合| 亚洲一区二区在线免费观看| 亚洲精品老司机| 亚洲福利网站| 天天射综合网站| 成人黄色中文字幕| 亚洲免费av在线| 欧美丰满日韩| 色影院视频在线| 国产树林野战在线播放| xxx欧美精品| 一级精品视频在线观看宜春院| 日韩综合网站| 国产在线激情视频| 久久这里只有精品8| 久久亚洲影音av资源网| 国产精品美女久久福利网站| 99视频在线精品国自产拍免费观看| 色女人在线视频| 在线观看国产中文字幕| 成人免费网站在线| 午夜久久久精品| 国产中文字幕在线视频| 成人午夜在线观看| 亚洲网站视频福利| 亚洲一二三区视频在线观看| 视频一区二区在线| 久久综合久久88| 欧美日韩国产a| 亚洲色大成网站www久久九九| 久久婷婷麻豆| 五月精品视频| 性开放的欧美大片| 午夜久久久久久久久久久| 日韩一区视频在线| 亚洲韩国精品一区| 麻豆精品91| 日本免费一区二区视频| 69视频在线| 国产嫩草在线观看| 波多野结衣精品久久| 久久精品小视频| 亚洲欧美中文字幕在线一区| 成人18视频日本| 成人vr资源| 不卡一二三区| 夜鲁很鲁在线视频| 国产 欧美 日本| 高清欧美一区二区三区| 国产欧美精品一区二区色综合朱莉| 国产精品成人一区二区不卡| 人人草在线视频| av片在线观看永久免费| 热re99久久精品国产66热| 粉嫩av亚洲一区二区图片| 免费av在线网站| 精品国产一区二区三区四区vr| 婷婷综合久久一区二区三区| 风间由美性色一区二区三区四区| 97福利电影| 青青影院一区二区三区四区| 国内精品小视频在线观看| 91精品蜜臀在线一区尤物| 国产成人av电影| 欧美午夜精品一区二区三区电影| 久久精品九九| 极品日韩久久| 欧美日韩免费网站| 国产精品欧美一区喷水| 国产精品毛片无遮挡高清| 亚洲天堂久久久久久久| 欧美日韩精品二区第二页| 日韩欧美一区二| 成人激情av在线| 91原创国产| www.一区二区三区| 国产尤物91| 狠狠色噜噜狠狠狠狠色吗综合| 99国产在线| 欧美一区二区三区四区视频| 国产黄色精品视频| 荡女精品导航| 成人高清网站| 九色在线视频观看| 日韩av高清| 26uuu另类亚洲欧美日本一| 国产精品成人一区二区艾草| 亚洲一区二区三区高清| 先锋影音在线资源站91| 欧美 国产 综合| 桥本有菜av在线| 社区色欧美激情 | 日韩欧美二区三区| 中文字幕一区二区三区蜜月| 国产精品美女久久福利网站| 欧美又粗又大又爽| 精品国产123| 美女黄色丝袜一区| 国产精品久久久久久久电影 | 欧美夫妻性生活xx| 久久久国产精品| 亚洲国产激情一区二区三区| 亚洲毛茸茸少妇高潮呻吟| 老司机免费视频一区二区| 欧美久久久久| 日韩黄色av| 日韩日韩日韩日韩日韩| 日韩视频免费观看| 偷拍日韩校园综合在线| 欧美综合国产| 日本综合视频| 首页亚洲中字| 999国产精品亚洲77777| 久久久久久久久久久99| 日韩高清三级| 国产91精品入口17c| 九九精品在线观看| 成人毛片视频在线观看| 成人中文字幕在线| 久久久久亚洲蜜桃| 91色porny| 国产福利91精品| 日韩精品三区四区| 99久久婷婷| 三上悠亚亚洲一区| 涩涩视频网站在线观看| 伦理片一区二区三区| 激情小视频在线| 桃花色综合影院| 黄动漫网站在线观看| h网址在线观看| 免费羞羞视频| 国产亚洲精品自在久久| 国产精品素人一区二区| 神马午夜久久| 久久69成人| 亚洲精品网址| 91偷拍与自偷拍精品| 91国偷自产一区二区开放时间 | 欧美7777| 日韩精品视频在线| 亚洲成人福利在线| 国产丝袜视频在线播放| 久操精品在线| 国产女人aaa级久久久级| 日韩在线一区二区三区免费视频| 制服丝袜中文字幕一区| 国产成人精品综合久久久| 伊人影院综合在线| 好吊妞视频这里有精品| 经典三级久久| 在线看国产精品| 91在线无精精品一区二区| av网站在线观看不卡| 伊人久久国产| 日韩综合小视频| 欧美性猛交一区二区三区精品| 青青草成人在线| www.99在线| 国产精品一区二区三区四区在线观看| 国产精品一区二区你懂的| 欧美一区二区三区免费大片 | 精品一区二区三区视频在线播放| 激情av一区| 欧美日韩视频免费播放| 国产91在线播放九色快色| 欧美r片在线| 911精品美国片911久久久| 欧美日韩免费观看中文| 国产精品久久网| aⅴ在线视频男人的天堂| 亚洲国产免费看| 欧美一区二区三区视频免费 | 另类中文字幕国产精品| 亚洲手机视频| 久久精品国产第一区二区三区最新章节| 欧美日韩电影一区二区| 日本福利视频导航| 欧美日韩国产精品激情在线播放| 国内自拍视频一区| 中文字幕第80页| 国际av在线| 欧美精品黄色| 国产精品久久久久福利| av在线中文| 久久99精品久久久久| 亚洲午夜女主播在线直播| 久久天天躁狠狠躁夜夜躁 | 日日夜夜精品视频| 久操国产精品| 日韩欧美中文免费| 中日韩在线视频| 99久久激情| 欧美大胆在线视频| 高清性色生活片在线观看| av高清久久久|