国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理 原創 精華

發布于 2025-12-23 09:34
瀏覽
0收藏

最近在各個平臺看了看”豆包手機“和特斯拉集成GORK實現車機Agent的相關視頻演示,個人從技術角度歸納兩個關注的技術點:

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

GUI Agent完成的任務示例

  • 將豆包大模型深度植入手機操作系統底層,獲得 Android 系統級高危權限INJECT_EVENTS(注入事件)
  • 實現 "視覺識別 + 模擬觸控" 的 GUI Agent(圖形用戶界面Agent)技術,無需 App 配合即可跨應用操作。(結構化UI用XML解析,非結構化UI用像素級VLM定位,精準識別復雜界面(如地圖施工圖標),提升操作成功率。)

以上相關技術匯聚就是目前比較火的“GUI Agent”,順藤摸瓜的翻到了一篇關于移動端GUI Agent訓練框架-MobileRL(也是用于Agent Auto GLM訓練的框架)。下面來看看MobileRL都解決了什么問題。

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

MobileRL概覽

視覺語言模型(VLM)(如 Qwen2.5-VL、GLM-4.1V)讓 “零樣本交互網頁 / 移動界面” 的 GUI Agent成為研究熱點。這類Agent可通過感知屏幕截圖 + 解析 UI 結構,自主執行點擊、滑動、輸入等操作,無需人工干預,理論上能適配各類移動應用(如日歷、購物、地圖 APP)。然而,移動 GUI 場景的特殊性(交互步驟長、環境反饋稀疏、設備仿真成本高)與通用 VLM 的 “靜態感知” 能力存在矛盾 —— 通用 VLM 僅能基于單幀畫面生成動作,缺乏 “多步規劃” 和 “環境反饋學習” 能力,難以應對復雜移動任務(如 “打開 Booking→篩選 9.10-9.12 的酒店→按價格排序”)。因此,需通過強化學習(RL)讓Agent從 “環境交互反饋” 中優化策略,但移動場景的 RL 面臨獨特挑戰。MobileRL提出了過去GUI-RL 方法的幾個挑戰:

挑戰 1:稀疏正信號下的復雜指令跟隨:移動 GUI 任務的 “指令復雜度” 與 “反饋稀疏性” 矛盾。例如 “添加明天 3 點的重復日歷事件” 需拆解為 “打開日歷→點擊新建→設置時間→開啟重復→保存” 多步,但模型僅在 “全部步驟正確” 時才獲獎勵;移動模擬器的高延遲(單步交互需秒級)導致 “正確執行的軌跡(rollout)極少”,早期探索階段模型多生成錯誤動作,數據利用效率極低,訓練周期被大幅拉長。

挑戰 2:重尾且不穩定的任務難度分布:移動任務難度呈 “重尾分布”—— 少數任務占總計算量的大部分:
后果:傳統 RL 的 “均勻采樣” 會將大量計算資源浪費在 “死胡同任務” 上,同時未充分利用 “難但可解決” 的高價值軌跡(這類軌跡包含 “錯誤恢復”“復雜指令拆解” 的關鍵信號)。

  • 易任務:部分任務(如 “搜索無線耳機”)僅需 3-5 步,多次采樣即可成功;
  • 死胡同任務:部分任務因 UI 設計限制(如隱藏菜單)或指令歧義,模型 “無論采樣多少次都無法成功”;

挑戰 3:大規模移動環境的采樣瓶頸:部署 / 管理 “數百個并發安卓實例” 的技術門檻高:每個安卓虛擬設備(AVD)需獨立內存 / 存儲,多機器協調難度大;不同機器的模擬器配置(如系統版本、APP 安裝狀態)差異,會導致同一動作的環境反饋不一致,影響 RL 訓練穩定性;早期模擬器不支持 “真正并發執行”,采樣吞吐量極低(如僅能同時運行數十個實例),無法支撐 “大規模 RL 訓練”(需數千次軌跡采樣優化策略)。

建模目標

移動GUIAgent需根據自然語言指令(如“打開日歷,添加明天下午3點的事件”),在移動設備上自主完成閉環交互:感知屏幕狀態→定位UI元素→執行連續動作(無需人類干預),僅在任務成功時獲得獎勵,失敗或達到最大步數時終止。

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

MobileRL概覽

論文將移動GUIAgent建模為有限時域馬爾可夫決策過程(MDP),各組件的具體定義貼合移動場景特性:

MDP組件

具體含義(移動GUI場景適配)

狀態空間 S

每個狀態 從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區 包含兩部分:

① 設備當前截圖(視覺信息);

② 從XML元數據解析的結構化UI層級(功能信息,如按鈕位置、可交互屬性)。

動作空間 A

9類原子GUI操作(覆蓋移動交互核心需求):
Tap(點擊)、Swipe(滑動)、Type(輸入文本)、Long Press(長按)、Launch(啟動應用)、Home(返回主頁)、Back(返回上一頁)、Wait(等待3秒)、Finish(終止任務,可選消息)。

轉移概率 P

安卓系統與應用的隨機轉移機制(如點擊按鈕后的頁面跳轉不確定性)。

獎勵函數 r

稀疏二元獎勵:任務成功時 r=1,失敗或超時 r=0,僅在任務終止時反饋。

時域 H

最大交互步數(實驗中設為50步),避免無限循環。


初始分布 從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

指令-狀態對的聯合分布(即任務初始時的設備狀態+自然語言指令)。

優化目標

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

其中 

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

 是交互軌跡, 

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

是軌跡總獎勵。

MobileRL

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

MobileRL概覽

框架核心思路:先通過兩階段監督微調(SFT)預熱,再進行自適應強化學習(RL),解決直接RL冷啟動效率低、探索成本高的問題。

組件1:無推理監督微調(Reasoning-Free SFT)

直接從基礎視覺語言模型(VLM)啟動RL,會因移動環境采樣成本高(每個樣本需安卓模擬器運行)、初始策略動作準確率低,導致探索效率極差。因此,第一步用“無推理專家數據”快速搭建動作執行基礎。

  • 數據來源:遵循Xu等人(2024)的協議收集人類標注專家演示數據,補充AndroidControl數據集(Li等人,2024)的訓練集,總計97.9k訓練步。
  • 訓練特點:數據僅包含“指令→動作序列”的映射(無中間推理步驟),目標是讓模型掌握基礎GUI操作(如“點擊按鈕”“輸入文本”)的執行邏輯,避免RL初期因動作錯誤浪費計算資源。
  • 訓練配置:使用Llama-Factory框架,訓練2個epoch,學習率從  余弦衰減至 ,圖像保留原始分辨率以保證UI元素識別精度。

組件2:推理監督微調(Reasoning SFT)

無推理SFT的策略是“黑箱”(僅知動作序列,不知為何執行),難以處理長指令、組合型任務(如“搜索酒店→篩選日期→按價格排序”)。需通過添加“中間推理步驟”,提升模型的指令拆解和邏輯規劃能力。

通過“基礎指令模型引導+迭代精煉”,給專家軌跡添加透明的推理過程,構建推理增強訓練集:

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

組件3:Agent強化學習(Agentic RL)

前面兩階段SFT已搭建“動作執行+指令理解”基礎,但仍缺乏環境交互反饋(如錯誤動作的修正、任務效率優化)。需通過RL利用環境反饋,進一步提升策略的魯棒性和效率。

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

難度自適應GRPO(ADAGRPO)算法

為解決移動場景的三大挑戰,在GRPO基礎上設計了ADAGRPO(Difficulty-ADAptive GRPO),包含三個關鍵策略,分別對應“獎勵分配”“采樣效率”“難度適配”問題:

策略1:最短路徑獎勵調整(SPA)

原始稀疏獎勵將 r=1 均勻分配給成功軌跡的每一步,導致模型偏向“長軌跡”(長軌跡貢獻更多梯度更新),但移動用戶更偏好高效、短步驟的交互。

根據軌跡長度調整獎勵,短成功軌跡獲得更高回報:

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

策略2:難度自適應正向回放(AdaPR)

移動環境中,“成功且有挑戰性”的軌跡極少(稀疏獎勵),但這類軌跡包含關鍵學習信號(如復雜指令的拆解、錯誤恢復);而普通RL的均勻采樣會浪費資源在低價值軌跡上。

借鑒經驗回放,構建“高質量軌跡緩沖區”,平衡回放與探索:

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

策略3:失敗課程過濾(FCF)

任務難度呈“重尾分布”:部分任務模型始終無法解決(如超復雜多步驟任務),反復采樣這類任務會浪費計算資源,且無正向學習信號。

基于“課程學習”思想,動態過濾持續失敗的任務:

  1. 失敗判定:若某任務連續2個epoch的所有軌跡均失敗(獎勵為0),進入3個epoch的“冷卻期”;
  2. 權重衰減:冷卻期內,該任務的采樣概率按從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區降低(f為連續失敗epoch數);
  3. 冷卻期結束后仍未成功,永久從采樣池中移除。

XML預處理

安卓無障礙服務生成的原始XML包含UI頁面的完整布局和元素信息,但存在三大問題:

  • 含大量“結構型節點”:僅用于頁面布局(如框架容器),無實際交互語義;
  • 屏外節點干擾:可滾動頁面會包含未顯示在屏幕上的節點,影響動作模擬(如點擊、滑動)的準確性;
  • 屬性描述冗余:XML屬性冗長(如完整類名、重復布爾值),增加模型處理的token開銷。

處理步驟

1. 移除屏外節點

根據任務需求動態控制是否保留屏外節點,避免無效節點干擾:

  • 控制參數:??remain_nodes??(布爾值)

     a.??remain_nodes=True??:保留屏外節點(如需總結整頁內容、無需滾動交互的場景);

     b.??remain_nodes=False??:移除屏外節點(默認用于動作模擬場景,避免模型點擊/滑動不可見元素)。

  • 判斷邏輯:遞歸檢查節點的??bounds???屬性(邊界坐標),僅保留完全位于屏幕尺寸??[0,0]~[Window_Height, Window_Width]??內且被父節點包含的“屏內節點”。
2. 刪除冗余節點

僅保留“有功能/語義的節點”,剔除無交互價值的結構型節點:

  • 功能節點判斷標準(滿足任一即可保留):

a.布爾屬性為??True???:包含??checkable???(可勾選)、??clickable???(可點擊)、??scrollable??(可滾動)等交互相關屬性;

b.文本屬性非空:??text???(顯示文本)或??content-desc??(內容描述)字段有有效信息。

  • 處理邏輯:遍歷所有節點,刪除不滿足上述條件的冗余節點(如純布局框架、空白占位元素)。
3. 屬性簡化

精簡XML屬性描述,減少token消耗并突出關鍵信息:

  • 具體優化規則:

a.布爾屬性:僅保留??True???值(如??clickable="true"???保留,??clickable="false"??直接省略);

b.無用屬性刪除:移除??index???(索引)、??resource-id???(資源ID)、??package??(應用包名),這些信息對語義理解無幫助;

c.類名精簡:僅保留類名的最后一部分(如??android.widget.FrameLayout???簡化為??FrameLayout??);

d.文本屬性合并:將??text???和??content-desc??合并為統一文本字段,單獨展示;

e.完整保留邊界屬性:??bounds???(元素坐標,如??[221,1095][858,1222]??)是動作執行的核心依據,完全保留。

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

示例

實驗性能

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

從豆包手機等看GUI Agent:MobileRL GUI Agent訓練框架和安卓XML預處理-AI.x社區

消融

參考文獻


本文轉載自??大模型自然語言處理??   作者:老余

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-12-23 16:06:53修改
收藏
回復
舉報
回復
相關推薦
亚洲一区二区在线免费观看| 国产又色又爽又黄刺激在线视频| 日韩精品国产精品| 国产美女搞久久| 首页亚洲中字| 欧美日韩xxxxx| 欧美一级做a| 在线播放日韩专区| 国产理论在线| 欧美成人国产一区二区| 国产精品久久久久一区二区国产| 午夜精品久久久久久久99水蜜桃| 99reav2| 成人欧美一区二区三区小说| 国产一区亚洲二区三区| 99综合电影在线视频| 欧美日韩dvd| 成人中文字幕在线| 国产人妻777人伦精品hd| 国产成人精品亚洲午夜麻豆| 日韩中文不卡| 日韩在线观看一区二区| 久久精品女人的天堂av| 欧美中文字幕| 日韩成人在线资源| 久久激五月天综合精品| 一区二区三区av| 国产麻豆一精品一av一免费| 国产在线xxxx| 国产精品丝袜黑色高跟| 久久午夜剧场| 色综合天天综合色综合av| 成人在线播放视频| 精品美女一区二区| 少妇高潮一区二区三区99| 久久91精品国产91久久跳| 国产精品男女| 国产在线视频欧美| 亚洲精选在线| 黑人巨大国产9丨视频| 久久免费精品国产久精品久久久久| mm1313亚洲国产精品无码试看| 中文字幕视频一区| 三级无遮挡在线观看| 日韩欧美一二三区| 日本一区二区中文字幕| 91高潮精品免费porn| 亚洲高清资源在线观看| 欧美一区免费视频| 成人免费毛片高清视频| gay视频丨vk| 欧美日韩成人综合天天影院| 三级在线看中文字幕完整版| 欧美激情综合亚洲一二区 | 成人影院在线视频| 中文字幕日韩有码| 国产成人精品一区二区免费看京| 国产精品久久亚洲7777| 懂色中文一区二区在线播放| 免费一级大片| 亚洲精品一区在线观看| 给我免费播放日韩视频| 国产精品一区二区三区观看 | 欧美大胆性生话| 欧美在线观看网址综合| 影音先锋亚洲电影| 亚欧无线一线二线三线区别| 欧美日韩性生活视频| 精品网站在线| 成人免费视频在线观看超级碰| 青椒成人免费视频| 国产精品视频中文字幕| 欧美丰满嫩嫩电影| 麻豆成人入口| 一区二区三区四区欧美日韩| 亚洲午夜一区二区| 日韩制服诱惑| 亚洲永久在线观看| 久久久久久久综合日本| 国产黄a三级三级三级av在线看 | 国产日韩在线亚洲字幕中文| 久久国产婷婷国产香蕉| 超碰在线免费看| 在线观看日韩av| 在线日韩视频| 可以看美女隐私的网站| 亚洲视频999| 亚洲激情网址| 91美女在线| 欧美另类在线观看| 国内外成人在线| av中文资源在线| 国产精品欧美激情| 久久精品一二三| 爱情电影社保片一区| 国产在线一区二| 亚洲成a人在线观看| 中文字幕一区二区三区中文字幕| 亚洲午夜精品国产| 在线视频综合导航| 欧美手机在线| 成人在线播放网站| 久久激情视频久久| 国内成人免费视频| 亚洲国产精品精华素| 91精品天堂| 夜夜嗨av一区二区三区四季av| 四虎精品永久免费| 香港三级日本三级a视频| 欧美一区二区三区思思人| 欧美疯狂party性派对| 成人免费网址在线| 久久综合免费视频影院| 国产不卡视频一区| 精品国产第一福利网站| 亚洲日本一区二区三区在线不卡| 欧美色网站导航| 国产精品hd| av在线三区| 国产欧美一区二区在线播放| 色综合色狠狠综合色| 国产精品伦理久久久久久| 国产美女av| 日韩免费观看高清| 一区二区三区在线免费播放| 久久久久影视| 爆操欧美孕妇| 国产精品高清免费在线观看| 亚洲欧美日韩国产手机在线| 精品三级av在线导航| 日本va中文字幕| 国模精品一区二区三区色天香| 99久久久精品免费观看国产蜜| 51一区二区三区| 欧洲黄色一级视频| 久久av.com| 日本一区二区成人| 精品国产视频| 日韩精品福利| 精选一区二区三区四区五区| 91精品综合久久久久久| 亚洲一级在线| 96av在线| 欧美v在线观看| 久久青草福利网站| 偷拍亚洲欧洲综合| 老司机一区二区三区| 天堂av在线网| www黄色在线| 国产精品自产拍在线观看| 在线观看日韩av先锋影音电影院| 国产精品普通话对白| 美女av在线免费看| 国产xxxxx在线观看| 91精品国产91久久久久| 狠狠做深爱婷婷久久综合一区| 日韩一区二区免费看| 裤袜国产欧美精品一区| 国产自偷自偷免费一区 | 日韩精品另类天天更新| 亚洲美女性视频| 日本一区二区综合亚洲| 欧美日韩大陆一区二区| 99热在线精品观看| bl在线肉h视频大尺度| 国产真人做爰毛片视频直播| 欧美劲爆第一页| 色欲综合视频天天天| 久久精品国产一区二区三| 亚洲精品一区av| 在线资源av| 亚洲三区四区| 97视频色精品| 宅男在线国产精品| 91蝌蚪porny成人天涯| 久久最新网址| 米奇777四色精品人人爽| 日本一道在线观看| 97精品视频在线| 欧美一区二区三区色| 99re在线精品| 亚洲中无吗在线| 素人啪啪色综合| 亚洲pron| 2018中文字幕第一页| 国产在线拍偷自揄拍精品| 亚洲精品一区二区三区影院| 国产日韩欧美电影| 亚洲黄色一区| 综合视频一区| 欧美人与禽猛交乱配| 毛片手机在线观看| 三级在线免费观看| 97久久夜色精品国产九色| 最近中文字幕mv在线一区二区三区四区 | 大片免费在线看视频| 精品999在线| 亚洲精品一区二| 国产精品久久久久77777| 国产一区二区免费|