字節(jié)Seed最新版原生智能體來了！一個模型搞定手機/電腦/瀏覽器自主操作

2025-09-05 13:52:53

人工智能新聞

這就是Seed最新發(fā)布的智能體UI-TARS-2，它不止采用了All in one這樣的原生設計，而且表現(xiàn)更是優(yōu)于Claude和OpenAI Agent等競爭對手。

AI自己玩手機、玩電腦、操作網(wǎng)頁瀏覽器……背后還只靠一個模型。

卷王字節(jié)Seed又把智能體帶到了一個全新level~

比如任務是醬紫的：

編寫一個可以轉換重量單位的函數(shù)。如果原始單位是千克，目標單位是克，并且要轉換的值是Mathilde Seigner（法國知名演員）被提名凱撒獎的次數(shù)加1，最終結果會是多少？

而通過一系列操作，Agent僅用時35s就得出了答案為4000克。

這就是Seed最新發(fā)布的智能體UI-TARS-2，它不止采用了All in one這樣的原生設計，而且表現(xiàn)更是優(yōu)于Claude和OpenAI Agent等競爭對手。

來看團隊成員曬出的成績單，不管是操作電腦/手機，還是使用瀏覽器、玩15款小游戲，其絲滑程度和完成率現(xiàn)在已經(jīng)超越一眾競爭對手，并進一步接近人類水平。

而且這里還透露了UI-TARS-2背后的關鍵秘訣：

一個通過多輪強化學習訓練的原生GUI智能體

劃重點，多輪強化學習。依靠這一技巧，UI-TARS-2核心解決了“讓AI自主操作圖形界面（GUI）”的四大難題：

數(shù)據(jù)稀缺：以往方法需要上百萬級高質量標注數(shù)據(jù)，成本極高，擴展困難。
環(huán)境割裂：不同任務（電腦、手機、網(wǎng)頁、終端、游戲）通常要在不同框架里訓練，無法統(tǒng)一。
能力單一：大多數(shù)智能體只能做GUI點擊或終端命令，難以完成真實復雜任務。
訓練不穩(wěn)定：強化學習在GUI任務上容易出現(xiàn)獎勵稀疏、策略崩潰，模型很難可靠收斂。

且看字節(jié)團隊如何見招拆招——

針對四大難題打出“組合拳”

先來看UI-TARS-2的整體設計思路和框架。

其核心目標為：構建一個真正原生、通用、跨平臺的GUI智能體，能在電腦、手機、網(wǎng)頁、終端，甚至游戲里自主完成復雜任務。

為此，UI-TARS-2架構主要包含下面這幾個部分：

1、統(tǒng)一的Agent架構：以大語言模型為核心決策器（Planner），將自然語言指令→GUI/終端/工具操作，全部納入一個通用執(zhí)行循環(huán)，同時支持GUI點擊、鍵盤輸入、終端命令、API調用等多種操作流。

2、多模態(tài)感知與環(huán)境交互：輸入端整合屏幕截圖（視覺）+文本上下文+歷史操作軌跡，輸出端可以是點擊坐標、拖拽動作、命令行、甚至API請求，形成感知—決策—執(zhí)行—反饋的完整閉環(huán)。

3、多輪強化學習：不依賴人工標注，而是通過環(huán)境反饋獎勵優(yōu)化策略，同時采用模擬環(huán)境（sandbox）+自動化任務生成，構建出“數(shù)據(jù)飛輪”，讓模型能不斷自我進化。

4、混合操作流（Hybrid Flows）：在一次任務軌跡中，智能體可以無縫組合GUI點擊、終端命令和API調用。例如，在網(wǎng)頁上找資料（GUI），處理數(shù)據(jù)（終端），再調用搜索API（工具）。

下面這個讓UI-TARS-2玩游戲的例子，很好地展示了這套框架的具體運作過程：

而基于這套框架，UI-TARS-2逐一解決了智能體自主操作GUI面臨的四大難題。

靠“數(shù)據(jù)飛輪”解決數(shù)據(jù)少的問題

為了打造數(shù)據(jù)飛輪，團隊采用了以下策略：

1、冷啟動：這一階段主要是廣泛收集原始數(shù)據(jù)，以及通過合成數(shù)據(jù)和人工標注來構建監(jiān)督微調所需的原始高質量、任務針對性強的數(shù)據(jù)。

2、多輪迭代：有了數(shù)據(jù)之后，先讓模型通過預訓練學習更廣泛的知識（如不同GUI操作流程、任務解決思路等），再使用高質量特定任務數(shù)據(jù)對模型進行優(yōu)化，最后通過強化學習進行端到端優(yōu)化。

在每輪迭代中，團隊會使用拒絕采樣（RFT）或交互標注生成新軌跡，這些軌跡記錄了模型在執(zhí)行任務過程中的推理、動作、環(huán)境狀態(tài)以及反饋等信息，將其按質量篩選后，高質量的進微調數(shù)據(jù)集，低質量的進預訓練數(shù)據(jù)集。

3、循環(huán)增強：然后模型用更新后的數(shù)據(jù)集重新訓練，能力提升后又能生成更好的軌跡，形成“模型變好→數(shù)據(jù)變好→模型更好”的循環(huán)，不斷解決數(shù)據(jù)稀缺問題。

用“多輪強化學習”讓AI操作更穩(wěn)

針對傳統(tǒng)強化學習在GUI長周期任務中“獎勵稀疏、優(yōu)化不穩(wěn)定、信用分配難” 的問題，團隊從任務設計、獎勵機制、訓練流程三方面進行了優(yōu)化。

如何進行任務獎勵設計？團隊先對任務類型進行拆分：

對可驗證任務（如游戲得分、網(wǎng)頁信息檢索），用明確信號（成功/失敗、LLM對比答案打分）當獎勵；

對模糊任務（如復雜GUI操作），訓練UI-TARS-2自身作為“獎勵模型”，根據(jù)軌跡和截圖輸出任務成功分數(shù)，保證獎勵可靠。

確定了這一模式后，團隊摒棄“等所有任務完成再訓練”的模式，轉而采用“異步rollout”——

把模型推理環(huán)節(jié)單獨拿出來，和實際執(zhí)行過程分離，互不干擾；同時只要湊夠最少需要的軌跡數(shù)量，就立刻用這些完成的軌跡開始訓練，那些未完成的就留到下一輪。

等到訓練時，團隊還在PPO算法上進行了3處優(yōu)化，從而讓模型操作更穩(wěn)，包括用“解耦GAE”避免長序列價值估計偏差、用“不對稱裁剪”鼓勵模型嘗試那些看似不常用、但可能有效的操作等。

打造“混合操作環(huán)境”突破界面限制

為解決純GUI操作（僅鼠標/鍵盤）無法應對數(shù)據(jù)處理、軟件開發(fā)等復雜工作流的問題，團隊構建了“GUI+多工具”融合的交互環(huán)境：

不僅整合多操作流，比如在同一環(huán)境里，智能體既能做GUI基礎操作（點擊、輸入、滾動網(wǎng)頁/APP），又能直接調用終端命令（如用Bash處理文件）、調用API，無需切換上下文。

還為其適配多場景載體，比如在云虛擬機里，內置文件系統(tǒng)、遠程VS Code、Jupyter等工具；在瀏覽器沙箱里，也能關聯(lián)終端功能，讓操作覆蓋“桌面-移動-游戲” 全場景。

建“統(tǒng)一沙盒平臺”支撐大規(guī)模訓練

針對傳統(tǒng)環(huán)境“難復現(xiàn)、易崩潰、吞吐量低”的工程瓶頸，團隊打造了兼容多載體的統(tǒng)一沙盒，保障百萬級交互訓練需求。

簡單來說，這就是一個虛擬的模型訓練場，支持智能體在里面大規(guī)模練習、試錯和進化。

以下為一個瀏覽器沙盒的示意圖，據(jù)此也能看到沙盒的大致運作方式：

優(yōu)于Claude和OpenAI Agent等競爭對手

那么，UI-TARS-2的實際表現(xiàn)如何呢？

根據(jù)介紹，UI-TARS-2是團隊基于Seed-thinking-1.6（總參數(shù)230B，含532M視覺編碼器 + 23B激活參數(shù)），經(jīng)過多輪迭代訓練而成。

在多個權威GUI測試里，比如OSWorld（369個Windows/Ubuntu/macOS任務）、WindowsAgentArena（150個 Windows任務）、TerminalBench（命令行任務）等，它的得分都比Claude、OpenAI的同類模型更高。

換句話說，在電腦、手機、瀏覽器操作上，UI-TARS-2的表現(xiàn)明顯更好。

而且在15款小游戲（比如2048、拼圖、迷宮）里，它的平均得分差不多是人類水平的60%，比OpenAI、Claude的游戲AI強不少，有的游戲（如“Shapes”）甚至比人玩得還好。

即使面對一些更復雜的游戲測試（LMGame-Bench），它也能和o3打得有來有回。

當然了，它不光會點界面、玩游戲，還能干“查資料”、“寫代碼修bug” 這樣的活兒，而且成績比只靠界面操作強很多。

總之，UI-TARS-2無疑驗證了多輪強化學習在智能體進化上的有效性。

論文：https://arxiv.org/abs/2509.02544

demo：https://seed-tars.com/showcase/ui-tars-2/

責任編輯：張燕妮來源：量子位

AI 模型數(shù)據(jù)

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看