港大聯手月之暗面等開源OpenCUA：人人可造專屬電腦智能體

2025-08-14 10:20:10

人工智能新聞

一篇來自香港大學 XLANG Lab 和月之暗面等多家機構的論文上線了 arXiv，其中提出了一個用于構建和擴展 CUA（使用計算機的智能體）的完全開源的框架。

剛剛，一篇來自香港大學 XLANG Lab 和月之暗面等多家機構的論文上線了 arXiv，其中提出了一個用于構建和擴展 CUA（使用計算機的智能體）的完全開源的框架。具體來說，該框架包括：

一個用于捕獲人類使用計算機的演示的注釋工具
AgentNet，首個涵蓋 3 個操作系統和 200 多個應用程序/網站的大規模數據集
一個將演示轉化為具有長思維鏈推理的「狀態-動作」對的工作流程

使用該框架，他們還構建了一個旗艦模型 OpenCUA-32B，其在 OSWorld-Verified 上達到了 34.8% 的成功率，創下了新的開源 SOTA，甚至在這個基準測試中超越了 GPT-4o。

更妙的是，他們完全公開了相關代碼、數據和模型！

論文標題：OpenCUA: Open Foundations for Computer-Use Agents
論文地址：https://arxiv.org/abs/2508.09123
項目頁面：https://opencua.xlang.ai/ （包含工具、模型、數據集）

值得注意的是，這項研究共有 6 位共一作者。項目負責人是香港大學計算機科學助理教授Tao Yu（余濤）。另外，月之暗面創始人和 CEO 楊植麟以及斯坦福大學計算機科學系助理教授楊笛一也在作者名單中。

下面我們就來詳細看看這項研究。

OpenCUA 框架

下圖展示了OpenCUA 框架概覽。

具體來說，OpenCUA 框架包含以下內容：AgentNet Tool，如左上角所示，可通過屏幕視頻與操作流程捕捉跨操作系統的用戶交互。右上角則展示了原始演示被處理成包含推理與歷史的「狀態–動作」軌跡。右下角展示了 AgentNet 數據集與基準，其中涵蓋多樣化的任務，并提供含黃金標準動作的離線評估。最后，左下角則是 OpenCUA 模型經過訓練后，可在真實環境中執行計算機操作任務。

AgentNet 數據收集

OpenCUA 的目標是將使用桌面計算機的數據擴展到不同的計算機環境和用戶場景。很自然地，該團隊首先要做的是收集符合自然用戶行為的演示，并盡量減少對用戶與計算機交互方式的額外限制，以提高數據收集的可擴展性。

為此，他們開發了 AgentNet Tool 并收集了 AgentNet 數據集，這也是首個大規模桌面智能體任務數據集。

AgentNet Tool

AgentNet Tool 是一個跨平臺的標注應用，可記錄用戶在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕視頻、鼠標/鍵盤操作以及相關元數據，從而實現對真實計算機使用演示的采集，而且這個方法是可以大規模擴展的。

AgentNet Tool 標注和驗證

該團隊對原始用戶演示進行了處理，得到了干凈、可用于訓練的「狀態–動作」軌跡。生成的軌跡中包含「內心獨白式」的思考與操作歷史，適用于視覺-語言模型的訓練。

原始演示包含高頻的屏幕錄制與細粒度交互信號（如鼠標移動、點擊、滾動、按鍵等）。一個典型任務可能產生成千上萬條底層動作記錄，密度過高，訓練效率低下。為解決這一問題，該團隊提出兩種技術方案：

1、動作約簡（Action Reduction）

這是該團隊開發的一種基于規則的方法，可將密集動作信號約簡為更少但更有意義的操作，同時保留必要信息。

將原子操作壓縮為高階操作；
鼠標移動被視為點擊/拖拽的前置條件，僅保留起止位置；
滾動事件按方向合并，并累計滾輪數量；
連續按鍵合并為文本輸入字符串，快捷鍵組合（如 CTRL+C）抽象為「熱鍵動作」；
常見的多步手勢（如拖拽、雙擊）也被整合為單一動作。

約簡后的動作序列與 pyautogui 動作空間對齊（詳見表 1）。

表1：人類操作與對應智能體動作函數

2、狀態–動作匹配（State-Action Matching）

為了將每個動作 a_i 配對至代表性狀態 s_i，該團隊從屏幕錄制中提取關鍵幀，捕捉動作發生前的系統狀態。但如果關鍵幀直接與鼠標點擊時間戳對齊，可能泄露未來信息（例如：鼠標已懸停在按鈕上，預測將變得過于容易）。

為避免該問題，他們的做法是在處理鼠標點擊時，回溯至鼠標開始移動前的階段，并向前搜索最后一個視覺上有明顯變化的幀，作為該動作的起始狀態。任務結束后，再附加一個終止幀及對應的「結束動作」。

AgentNet 數據集與測試基準

最終，他們得到了 AgentNet 數據集和 AgentNetBench 基準測試集。

數據集涵蓋了來自 140 多款應用和 190 多個網站的多樣化開放領域任務，任務涉及多應用協作流程、專業工具操作以及非通用功能的使用。基準提供任務指令、步驟歷史及每一步的多個黃金標準動作，便于高效的離線評估。

圖 4：AgentNet 數據集中任務的領域分布

該數據集共包含 22,625 條人工標注的計算機使用任務，其中約 12,000 條來自 Windows，5,000 條來自 macOS，5,000 條來自 Ubuntu，支持的屏幕分辨率范圍從 720p 到 4K。每條軌跡的平均步驟為 18.6 步，體現了任務本身的復雜性。

下面展示了一個示例：

如表 2 所示，與現有的 GUI 數據集相比，AgentNet 是首個具備真實性、復雜性、多樣性與多模態特征的桌面端軌跡級數據集。

表2：AgentNet 數據集與現有GUI數據集對比

為實現穩定、快速且無需依賴環境配置的評估，他們還構建了 AgentNetBench ——一個離線的計算機使用智能體評估基準。

該基準是從 AgentNet 數據集中精選出 100 個具有代表性的任務構成的，涵蓋 Windows 與 macOS 平臺，任務內容橫跨多個應用領域。

該團隊表示，每個任務均經過人工審查，明確任務目標并剔除冗余操作。值得注意的是，考慮到計算機操作任務中天然存在多種合理操作路徑，他們還在每個步驟上手動提供了多個有效動作選項，以提升評估的靈活性與真實性。

OpenCUA 模型

基于上述數據集，該團隊打造了 OpenCUA 智能體模型，其結合了反思式思維鏈推理、多圖像歷史以及跨領域數據。模型能夠在多個操作系統的真實桌面環境中執行計算機操作任務。

值得注意的是，他們還設計了一條新穎的處理流程，用于為每個任務步驟增強反思式長思維鏈（reflective long CoT）：「生成器」（generator）與「反思器」（reflector）會以迭代方式生成并驗證推理過程中，在觀察信息與真實動作（ground-truth actions）之間的各個組件。

實驗結果與分析

實驗基于多個開源的視覺-語言模型進行，包括：KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中，KimiVL-A3B 采用了混合專家（MoE）架構，擁有總計 16B 參數，在訓練與推理時激活參數為 3B，具備一定的計算機操作能力，如對象定位與任務規劃。

Qwen2-VL 與 Qwen2.5-VL 是通用型視覺-語言模型（VLM），其中 Qwen2.5-VL 在數字智能體任務中表現更強，特別擅長高分辨率場景的理解。

該團隊對上述模型進行了監督微調，得到多個 OpenCUA 模型變體：OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后，他們在以下多個基準上對這些模型進行了評估，包括在線評估基準、離線智能體評估基準以及GUI 定位能力評估基準。

在線智能體評估

OSWorld-Verified：OSWorld 最初收集整理了 369 個人工構建的任務，涵蓋大量應用程序，并配有對應的環境配置與評估腳本。OSWorld 團隊近期對這些任務進行了驗證，修復了因依賴過期、評估錯誤或指令不清導致無法測試的項目，并將改進后的基準發布為 OSWorld-Verified 。評估結果通過 OSWorld 團隊部署在 AWS 基礎設施上的公開評估平臺獲得，結果列于表 3。
WindowsAgentArena (WAA) ：該基準包含 154 個以 Windows 為中心的任務，涵蓋原生 Windows 應用以及若干出現在 OSWorld 中的開源程序，能有效反映智能體在 Windows 系統上的在線性能。

表 3：OSWorld-Verified 評估結果

從結果上看，OpenCUA-32B 在所有開源模型中取得了最佳表現，平均成功率達 34.8%，大幅領先于此前的各類基線模型。同時，它顯著縮小了與閉源智能體的性能差距，甚至超越了 OpenAI CUA。這一結果充分證明了OpenCUA 訓練流程在可擴展性與性能上的優勢。

離線智能體評估

離線評估使用了 AgentNetBench，這是該團隊創建的 CUA 離線評估基準，其中包含 100 個具有代表性任務，覆蓋 Windows 與 macOS 上的多個領域。結果如下表所示。

表 4：AgentNetBench 上，各個 CUA 的性能表現

可以看到，OpenCUA-32B 的整體表現最佳，但 OpenAI CUA 在Function action成功率上的表現有明顯優勢。

GUI 定位能力評估

該團隊也評估了模型在圖形用戶界面（GUI）中將自然語言指令映射到具體操作的能力，這里使用了三個基準：OSWorld-G、Screenspot-V2、Screenspot-Pro。

其中，OSWorld-G 包含 564 個樣本，系統性地覆蓋了文本匹配、界面元素識別、布局理解以及細粒度操作控制等任務，并提供了解決每個任務所需的界面元素類型注釋。Screenspot-V2 包含來自移動端、桌面端與網頁端的截圖，旨在評估跨平臺場景下的 GUI 理解能力。Screenspot-Pro 則聚焦于高分辨率桌面環境，尤其強調在專業應用場景中的表現能力。