国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

港大聯手月之暗面等開源OpenCUA:人人可造專屬電腦智能體

人工智能 新聞
一篇來自香港大學 XLANG Lab 和月之暗面等多家機構的論文上線了 arXiv,其中提出了一個用于構建和擴展 CUA(使用計算機的智能體)的完全開源的框架。

剛剛,一篇來自香港大學 XLANG Lab 和月之暗面等多家機構的論文上線了 arXiv,其中提出了一個用于構建和擴展 CUA(使用計算機的智能體)的完全開源的框架。具體來說,該框架包括:

  • 一個用于捕獲人類使用計算機的演示的注釋工具
  • AgentNet,首個涵蓋 3 個操作系統和 200 多個應用程序/網站的大規模數據集
  • 一個將演示轉化為具有長思維鏈推理的「狀態-動作」對的工作流程

使用該框架,他們還構建了一個旗艦模型 OpenCUA-32B,其在 OSWorld-Verified 上達到了 34.8% 的成功率,創下了新的開源 SOTA,甚至在這個基準測試中超越了 GPT-4o。

更妙的是,他們完全公開了相關代碼、數據和模型!

圖片

  • 論文標題:OpenCUA: Open Foundations for Computer-Use Agents
  • 論文地址:https://arxiv.org/abs/2508.09123
  • 項目頁面:https://opencua.xlang.ai/ (包含工具、模型、數據集)

值得注意的是,這項研究共有 6 位共一作者。項目負責人是香港大學計算機科學助理教授Tao Yu(余濤)。另外,月之暗面創始人和 CEO 楊植麟以及斯坦福大學計算機科學系助理教授楊笛一也在作者名單中。

下面我們就來詳細看看這項研究。

OpenCUA 框架

下圖展示了OpenCUA 框架概覽。

圖片

具體來說,OpenCUA 框架包含以下內容:AgentNet Tool,如左上角所示,可通過屏幕視頻與操作流程捕捉跨操作系統的用戶交互。右上角則展示了原始演示被處理成包含推理與歷史的「狀態–動作」軌跡。右下角展示了 AgentNet 數據集與基準,其中涵蓋多樣化的任務,并提供含黃金標準動作的離線評估。最后,左下角則是 OpenCUA 模型經過訓練后,可在真實環境中執行計算機操作任務。

AgentNet 數據收集

OpenCUA 的目標是將使用桌面計算機的數據擴展到不同的計算機環境和用戶場景。很自然地,該團隊首先要做的是收集符合自然用戶行為的演示,并盡量減少對用戶與計算機交互方式的額外限制,以提高數據收集的可擴展性。

為此,他們開發了 AgentNet Tool 并收集了 AgentNet 數據集,這也是首個大規模桌面智能體任務數據集。

AgentNet Tool

AgentNet Tool 是一個跨平臺的標注應用,可記錄用戶在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕視頻、鼠標/鍵盤操作以及相關元數據,從而實現對真實計算機使用演示的采集,而且這個方法是可以大規模擴展的。

圖片

AgentNet Tool 標注和驗證

該團隊對原始用戶演示進行了處理,得到了干凈、可用于訓練的「狀態–動作」軌跡。生成的軌跡中包含「內心獨白式」的思考與操作歷史,適用于視覺-語言模型的訓練。

原始演示包含高頻的屏幕錄制與細粒度交互信號(如鼠標移動、點擊、滾動、按鍵等)。一個典型任務可能產生成千上萬條底層動作記錄,密度過高,訓練效率低下。為解決這一問題,該團隊提出兩種技術方案:

1、 動作約簡(Action Reduction)

這是該團隊開發的一種基于規則的方法,可將密集動作信號約簡為更少但更有意義的操作,同時保留必要信息。

  • 將原子操作壓縮為高階操作;
  • 鼠標移動被視為點擊/拖拽的前置條件,僅保留起止位置;
  • 滾動事件按方向合并,并累計滾輪數量;
  • 連續按鍵合并為文本輸入字符串,快捷鍵組合(如 CTRL+C)抽象為「熱鍵動作」;
  • 常見的多步手勢(如拖拽、雙擊)也被整合為單一動作。

約簡后的動作序列與 pyautogui 動作空間對齊(詳見表 1)。

圖片

表1:人類操作與對應智能體動作函數

2、狀態–動作匹配(State-Action Matching)

為了將每個動作 a_i 配對至代表性狀態 s_i,該團隊從屏幕錄制中提取關鍵幀,捕捉動作發生前的系統狀態。但如果關鍵幀直接與鼠標點擊時間戳對齊,可能泄露未來信息(例如:鼠標已懸停在按鈕上,預測將變得過于容易)。

為避免該問題,他們的做法是在處理鼠標點擊時,回溯至鼠標開始移動前的階段,并向前搜索最后一個視覺上有明顯變化的幀,作為該動作的起始狀態。任務結束后,再附加一個終止幀及對應的「結束動作」。

AgentNet 數據集與測試基準

最終,他們得到了 AgentNet 數據集和 AgentNetBench 基準測試集。

數據集涵蓋了來自 140 多款應用和 190 多個網站的多樣化開放領域任務,任務涉及多應用協作流程、專業工具操作以及非通用功能的使用。基準提供任務指令、步驟歷史及每一步的多個黃金標準動作,便于高效的離線評估。

圖片

圖 4:AgentNet 數據集中任務的領域分布

該數據集共包含 22,625 條人工標注的計算機使用任務,其中約 12,000 條來自 Windows,5,000 條來自 macOS,5,000 條來自 Ubuntu,支持的屏幕分辨率范圍從 720p 到 4K。每條軌跡的平均步驟為 18.6 步,體現了任務本身的復雜性。

下面展示了一個示例:

如表 2 所示,與現有的 GUI 數據集相比,AgentNet 是首個具備真實性、復雜性、多樣性與多模態特征的桌面端軌跡級數據集。

圖片

表2:AgentNet 數據集與現有GUI數據集對比

為實現穩定、快速且無需依賴環境配置的評估,他們還構建了 AgentNetBench ——一個離線的計算機使用智能體評估基準。

圖片

該基準是從 AgentNet 數據集中精選出 100 個具有代表性的任務構成的,涵蓋 Windows 與 macOS 平臺,任務內容橫跨多個應用領域。

該團隊表示,每個任務均經過人工審查,明確任務目標并剔除冗余操作。值得注意的是,考慮到計算機操作任務中天然存在多種合理操作路徑,他們還在每個步驟上手動提供了多個有效動作選項,以提升評估的靈活性與真實性。

OpenCUA 模型

基于上述數據集,該團隊打造了 OpenCUA 智能體模型,其結合了反思式思維鏈推理、多圖像歷史以及跨領域數據。模型能夠在多個操作系統的真實桌面環境中執行計算機操作任務。

圖片

值得注意的是,他們還設計了一條新穎的處理流程,用于為每個任務步驟增強反思式長思維鏈(reflective long CoT):「生成器」(generator)與「反思器」(reflector)會以迭代方式生成并驗證推理過程中,在觀察信息與真實動作(ground-truth actions)之間的各個組件。

實驗結果與分析

實驗基于多個開源的視覺-語言模型進行,包括:KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中,KimiVL-A3B 采用了混合專家(MoE)架構,擁有總計 16B 參數,在訓練與推理時激活參數為 3B,具備一定的計算機操作能力,如對象定位與任務規劃。

Qwen2-VL 與 Qwen2.5-VL 是通用型視覺-語言模型(VLM),其中 Qwen2.5-VL 在數字智能體任務中表現更強,特別擅長高分辨率場景的理解。

該團隊對上述模型進行了監督微調,得到多個 OpenCUA 模型變體:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后,他們在以下多個基準上對這些模型進行了評估,包括在線評估基準、離線智能體評估基準以及GUI 定位能力評估基準。

在線智能體評估

  1. OSWorld-Verified:OSWorld 最初收集整理了 369 個人工構建的任務,涵蓋大量應用程序,并配有對應的環境配置與評估腳本。OSWorld 團隊近期對這些任務進行了驗證,修復了因依賴過期、評估錯誤或指令不清導致無法測試的項目,并將改進后的基準發布為 OSWorld-Verified 。評估結果通過 OSWorld 團隊部署在 AWS 基礎設施上的公開評估平臺獲得,結果列于表 3。
  2. WindowsAgentArena (WAA) :該基準包含 154 個以 Windows 為中心的任務,涵蓋原生 Windows 應用以及若干出現在 OSWorld 中的開源程序,能有效反映智能體在 Windows 系統上的在線性能。

圖片

表 3:OSWorld-Verified 評估結果

從結果上看,OpenCUA-32B 在所有開源模型中取得了最佳表現,平均成功率達 34.8%,大幅領先于此前的各類基線模型。同時,它顯著縮小了與閉源智能體的性能差距,甚至超越了 OpenAI CUA。這一結果充分證明了OpenCUA 訓練流程在可擴展性與性能上的優勢。

離線智能體評估

離線評估使用了 AgentNetBench,這是該團隊創建的 CUA 離線評估基準,其中包含 100 個具有代表性任務,覆蓋 Windows 與 macOS 上的多個領域。結果如下表所示。

圖片

表 4:AgentNetBench 上,各個 CUA 的性能表現

可以看到,OpenCUA-32B 的整體表現最佳,但 OpenAI CUA 在Function action成功率上的表現有明顯優勢。

GUI 定位能力評估

該團隊也評估了模型在圖形用戶界面(GUI)中將自然語言指令映射到具體操作的能力,這里使用了三個基準:OSWorld-G、Screenspot-V2、Screenspot-Pro。

其中,OSWorld-G 包含 564 個樣本,系統性地覆蓋了文本匹配、界面元素識別、布局理解以及細粒度操作控制等任務,并提供了解決每個任務所需的界面元素類型注釋。Screenspot-V2 包含來自 移動端、桌面端與網頁端的截圖,旨在評估跨平臺場景下的 GUI 理解能力。Screenspot-Pro 則聚焦于高分辨率桌面環境,尤其強調在專業應用場景中的表現能力。

圖片

圖片

OpenCUA 模型在三個基準測試上的 GUI 定位性能,并與 Qwen2.5-VL 模型和 UI-TARS 進行了對比。

可以看到,新提出的方法能夠隨著訓練數據規模的擴大而有效提升模型性能。

較高的 Pass@N 表現表明,OpenCUA-7B 在測試階段具備良好的擴展潛力(test-time scaling),即在允許更多嘗試次數或更長推理路徑的情況下,其性能仍可進一步顯著提升。

OpenCUA-Qwen2-7B 在 OSWorld 基準上的 Pass@N 性能曲線(temperature = 0.1)

圖片

OpenCUA-Qwen2-7B 在 OSWorld 基準上的 Pass@N 性能曲線(temperature = 0)

總結

OpenCUA是一個面向計算機使用智能體(CUA)開發的全面開源框架,填補了該領域的關鍵空白。通過提供標注基礎設施、數據處理流水線、多樣化數據集、高效訓練策略和系統評估基準,為 CUA 研究奠定了基礎性支撐。

其得到的模型在多個基準任務中表現優異,同時呈現出明確的數據 Scaling Law與跨領域泛化能力。通過完整開源工具鏈(包括工具、數據集、代碼與模型),該團隊表示希望加速透明、可驗證的 CUA 研究,使社區能夠系統性地探索此類智能體的能力、局限性與風險。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-28 10:00:00

蘋果AI

2025-02-24 13:50:00

算力AI開源

2025-07-17 07:12:45

2025-09-02 09:05:00

AI大模型智能體

2025-01-24 08:53:46

2020-10-30 17:56:40

華為云互聯網智能

2025-01-23 13:05:42

2023-05-26 09:45:56

AI模型

2025-02-24 09:15:00

2024-03-04 07:00:00

地圖虛擬智能

2025-06-17 15:24:48

開源模型AI

2025-08-14 18:14:38

智能模型開源

2025-03-17 08:40:00

開源智能體框架

2025-09-24 08:46:13

2025-11-06 01:44:00

2025-05-13 09:21:30

點贊
收藏

51CTO技術棧公眾號

国产精品一品视频| 精品一区91| 免费拍拍拍网站| 亚洲精品自拍| 久久综合成人精品亚洲另类欧美| 国产视频在线观看一区| 日韩av在线中文字幕| 欧美黑人巨大xxx极品| 国产成人a视频高清在线观看| 国内精品中文字幕| 亚洲7777| 免费看男女www网站入口在线| 青青一区二区三区| 久久99热这里只有精品国产| 日韩毛片免费看| 最新91在线视频| 日本综合视频| 这里只有精品在线播放| av有声小说一区二区三区| 亚洲深夜福利视频| 国产精品麻豆成人av电影艾秋| 精品一区二区三区三区| 成人免费短视频| 伊人成人开心激情综合网| 国产精品亚洲成在人线| 久久精品国产久精国产一老狼| 国产精品第一| 欧美国产视频日韩| 亚洲欧洲美洲国产香蕉| 四虎影视永久免费在线观看一区二区三区| 99aiav| 国产在线欧美| 欧美一区二区三区小说| 日本美女在线中文版| 欧美片网站yy| 国产一二三在线| 精品一区二区亚洲| 精品美女一区| 欧美成人一区在线| 日韩av不卡一区| 成人羞羞国产免费| 一区二区日本视频| www.xxx麻豆| 久久久国产精品不卡| 性生大片免费观看性| 欧美在线一区二区三区| 神马午夜伦理不卡| 久久精品免费播放| 91久久久精品国产| 9999在线观看| 亚洲欧美一区二区久久| 亚洲s色大片| 日韩中文字幕av| 久久亚洲影视| 特级毛片在线免费观看| 老司机一区二区三区| 国产一二三在线视频| 日本亚洲天堂网| 欧洲av不卡| 91精品国产乱码久久久久久久久 | 国产精品一级黄| 国产97色在线 | 日韩| 精品女厕一区二区三区| 精品久久久久久久| 欧美一区二区三区免费在线看 | 精品一区二区三区四区五区| av日韩在线网站| 欧美在线播放一区| 麻豆精品一区二区综合av| 欧美视频在线第一页| 不卡视频在线看| 国产亚洲精品久久久久久牛牛| 成人在线网址| 中文字幕亚洲欧美一区二区三区 | 亚洲欧美文学| 曰韩不卡视频| 国产精品美日韩| 成人黄色免费电影| 97蜜桃久久| 日韩最新在线| 91精品中文在线| 国内一区二区在线| av在线www| 欧美一卡二卡在线| 成人在线tv视频| 日韩av大全| 婷婷激情一区| 午夜精品久久久99热福利| 在线日韩欧美| 性生交免费视频| 欧美一级片在线看| 久久不见久久见免费视频7| 在线观看成人av电影| 亚洲国产日韩在线一区模特| 国产成+人+综合+亚洲欧美| 亚洲自拍av在线| 国产精品乱码一区二区三区软件| 亚洲综合不卡| 欧美激情专区| 有坂深雪av一区二区精品| 高潮在线视频| 成人免费91在线看| 中文字幕欧美国产| www视频在线观看| 91九色单男在线观看| 国产三级久久久| 欧美高清视频一区| 国产精品国产三级国产三级人妇 | 97国产精东麻豆人妻电影| 日韩欧美精品三级| 亚洲第一偷拍| 日韩欧美亚洲一区| 久久久久国产精品www| av男人天堂一区| 国模一区二区| 4444在线观看| 日韩激情第一页| 热久久久久久久| 日韩另类在线| 精选一区二区三区四区五区| 岛国av在线不卡| 日本成在线观看| 九色成人免费视频| www国产成人| 国产欧美日韩电影| 久草热视频在线观看| 中文字幕日韩在线播放| 国产一区二区三区免费在线观看| 性xxxxfjsxxxxx欧美| 日本亚洲导航| 欧美大片免费久久精品三p| 久久一区中文字幕| 在线中文字幕视频观看| 日韩欧美一区二区视频在线播放| 日韩精品资源二区在线| 久久国产精品72免费观看| 国产网友自拍视频导航网站在线观看 | 欧美最猛性xxxx| 国产日韩精品一区二区浪潮av| 天天综合网站| 一区二区三区免费看| 亚洲精品一区二区三区99| 国产精品久久久久9999高清| 成人看av片| 亚洲福利av| 日韩精品免费在线播放| 久久99精品国产91久久来源| 国产v日韩v欧美v| www.亚洲成人网| 欧美二区在线播放| 亚洲视频综合在线| 日韩精品一区二区三区免费观影| 国产香蕉尹人视频在线| 国产精品 日韩| 伊人情人综合网| eeuss影院www在线观看| 视频一区二区精品| 伊人伊成久久人综合网小说| 国产视频一区在线播放| 成人动漫免费在线观看| 成人网视频在线观看| 深夜福利成人| 久久大大胆人体| 亚洲黄网站在线观看| 欧美精选一区| 亚洲七七久久综合桃花剧情介绍| av动漫在线免费观看| 91精品国产91| 色哟哟在线观看一区二区三区| 国产视频第一区| 国产精品久久7| 精品乱人伦小说| 91小视频免费观看| av亚洲在线观看| 欧美日韩经典丝袜| www.超碰com| 国产精品大全| 这里只有精品久久| 一区二区三区欧美| 青娱乐精品视频| 中文字幕区一区二区三| 蜜桃臀av在线| 亚洲国产精品人久久电影| 国产成人亚洲综合a∨婷婷图片 | 亚洲欧美在线磁力| 亚洲欧美一区二区三区极速播放| 影音先锋中文字幕一区二区| yw.尤物在线精品视频| 最新精品视频在线| 狠狠噜天天噜日日噜| 91精品国产综合久久久久久蜜臀| 亚洲国产精品系列| 亚洲国产视频a| 国产成人精品1024| 99精品网站| 欧美激情福利| 在线观看h片| 欧美激情欧美狂野欧美精品| 亚洲成人av中文| 不卡av在线网|