国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

CodeAgent 2.0 時代開啟|GitTaskBench,顛覆性定義代碼智能體實戰交付新標準

人工智能 新聞
為突破現有評測局限,中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者,與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合,首次提出并開源了 repo-level 的測評新范式 GitTaskBench。

你是否也好奇過:現在的模型在各類榜單分數都那么高,實際體驗卻不符預期?

我們也看過各種 AI Coding 領域的評測,發現大多停留在了 「代碼生成」與「封閉題目」的考核,卻忽視了環境配置、依賴處理、跨倉庫資源利用等開發者必經的真實需求 —— 當下眾多 Benchmark 僅通過題目,已難以衡量 Code Agent 的實際效果。

為突破現有評測局限,中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者,與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合,首次提出并開源了 repo-level 的測評新范式 GitTaskBench:

1)真正考察 Agent 從 倉庫理解 → 環境配置 → 增量開發 / 代碼修復 → 項目級交付 的全鏈路能力,指引了迭代新范式

2)首次把「框架 × 模型」的「經濟收益」納入評測指標,給學界、業界以及創業者都帶來了很好的思路啟發

  • 論文標題:GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
  • 論文地址:https://arxiv.org/pdf/2508.18993
  • GitHub 鏈接:https://github.com/QuantaAlpha/GitTaskBench

GitTaskBench 分布一覽

其開源版覆蓋了 7 大模態 × 7 個領域 × 24 個子領域及 54 個真實任務:

對應后端倉庫 18 個,包含平均 204 個文件、1,274.78 個函數、52.63k 行代碼,文件彼此引用依賴平均為 1242.72 次。

且每個任務都綁定了完整 GitHub 倉庫 + 自然語言指令 + 明確輸入輸出格式 + 任務特定的自動化評測。

以下圖片統計了 GitTaskBench 的領域與模態分布,包括相應的數量。

倉庫級的端到端評測的構建

首先從能力角度,GitTaskBench 對 Code Agent 進行了三個維度的分析:

1. 整體編碼掌控:讀文檔、解依賴、生成 / 修改 / 調試代碼

2. 任務導向執行:多輪推理與工具使用,產物必須貼合任務交付,利用代碼倉庫但不局限于倉庫

3. 自主環境配置:不借助預置鏡像,獨立裝環境 / 解依賴

下圖是從倉庫收集到任務測評的全流程概覽

整體主要經過四個階段:

1. 「倉庫遴選」:結合文獻綜述、LLM 輔助檢索和專家咨詢,先定任務范圍;再從 Python 倉庫里,挑出 ?≥50、近五年活躍、依賴可用且易配置的候選。人工核驗 Stars、Forks、許可證、提交歷史,確保資源靠譜。

2. 「完備性驗證」:包括必要依賴文件、配置文件、所需數據集和預訓練模型。嚴格按文檔跑通,確保 100% 人類可復現;若遇到資源門檻 / 外鏈阻斷,將必要信息放進到 README,充分保證自包含所有必要信息。

3. 「執行框架設計」:統一清晰的任務定義、輸入 / 輸出規范;Agent 接收倉庫 + 任務提示,需完成倉庫理解 → 代碼生成 / 修改 → 環境安裝 → 代碼執行的多階段流程。

4. 「自動化評測」:我們實現了一套由人工驗證的定制化測試腳本驅動的評測指標體系。所有任務只需一條命令自動評測,可直接產出各任務對應的成功 / 失敗狀態 + 詳細原因,并可進行指標統計。

實在的經濟可行性分析

其次,GitTaskBench 還首次提出了「性價比」的概念,結合以下指標:

  • ECR(Execution Completion Rate):能否成功執行倉庫并以合規格式輸出(存在、非空、格式可解析)
  • TPR(Task Pass Rate):按任務領域標準判定是否達到成功閾值(如語音增強 PESQ ≥2.0 / SNR ≥15dB;圖像類 SSIM/FID 閾值等),不過線即失敗。
  • α 值(Alpha Practical Value):該值為 Agent 在執行任務的平均凈收益 —— 把完成度 (T)、市場價 (MV)、質量系數 (Q) 和成本 (C) 融合,回答「這活交給這個 Agent 值不值」的切實問題,具體公式:

  • n 表示任務數量;
  • T 為任務成功的二元標記(與 ECR 定義一致,成功為 1,失敗為 0);
  • MV 表示人工完成該任務的市場價值估計;
  • Q 為質量系數(0 至 1 之間),表示智能體輸出與人工執行同一倉庫所得結果的接近程度;
  • C 為智能體的總運行成本(此處近似為 API 費用)。

這很好地反映了 Agent 方案在各領域的經濟可行性,通過量化任務自動化與可擴展性帶來的成本節省、效率提升及潛在市場收益,真正地評估了 Agent 落地的實際價值。

結果一覽:框架與模型的耦合

在適配了主流框架與模型之后,我們實驗發現:

  • OpenHands 整體最強,+ Claude 3.7 拿到最高成績:ECR 72.22% / TPR 48.15%。
  • 性價比之王? GPT-4.1 在成功率次優的同時,成本僅為 Claude 的 1/10 ~ 1/30(OpenHands 設定下),在 SWE-Agent 中也以更低成本拿到亞軍表現。
  • 開源可用性:Qwen3-32B(think 模式) 能以更少 token 達到 Claude 3.5 的約 60% 水平。
  • 任務偏好:純文本 / 辦公文檔類穩定,多模態、模型推理密集型更難(如圖像修復需多依賴與權重配置)。

更細致地分析,各任務領域下不同框架 + 模型的性能表現:

此外,能力之上的現實價值也值得關注:

雖然在人類市場價值(MV)本身較高的倉庫(如 視頻類 VideoPose3D 、語音類 FunASR 、時序生理信號類 NeuroKit 場景)中,只要 Agent 順利完成任務,就能獲得最大的正向 alpha 收益。

但對于低 MV 的圖像處理等任務(MV≈$5–10),一旦智能體的平均執行成本超過 $1-2,往往會導致 alpha 為負。

這一規律凸顯了:在商業潛力有限的任務中,控制運行成本對于確保經濟可行性至關重要。

其中,對于不同模型:

  • DeepSeek V3 在大多數倉庫中提供了最高的整體收益與最佳的性價比;
  • GPT-4.1 在不同場景下表現更加穩定與穩健,很少出現大幅性能下降的情況;
  • Claude 3.5 的收益分布最為分散,在信息抽取任務上表現突出,但在計算量較大的視覺類任務中對成本較為敏感。

總結

由此可見,現實中我們對「框架 × 模型」的選擇,應從效果、成本、API 調用上進行三元權衡,例如:Claude 系列在代碼類任務表現出色,但在很多場景下 GPT-4.1 更省錢且穩健,而開源模型可在特定倉庫上取得更好的綜合 α。

在以下更廣泛應用場景,我們也可以直接用 GitTaskBench 來助力:

  • Agent infra:做基座對比、工作流改進(環境管理 / 依賴修復 / 入口識別 / 執行規劃)的回歸測試場。
  • 應用落地評審:以 ECR/TPR/α 同時衡量「能不能交付」與「劃不劃算」,給 PoC / 上線決策提供可解釋的三維證據。
  • 任務設計素材庫:跨圖像 / 語音 / 生理信號 / 辦公文件 / 爬蟲等七模態任務,可直接復用作為企業內評測用例。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-04-07 15:51:35

2025-08-06 07:00:00

CIOIT路線圖企業

2013-08-28 10:39:45

視覺設計顛覆性思維設計

2022-07-01 05:47:19

PyCharm插件開發

2023-02-02 11:17:44

數據中心運營商集群

2013-11-27 10:35:14

大數據+云顛覆科技

2019-02-21 00:06:57

物聯網IOT技術

2015-12-29 14:43:41

混合云云交付模式云的預測

2018-01-04 14:50:56

2021-08-16 10:03:43

人工智能AI深度學習

2020-05-06 11:07:47

人工智能營銷行業AI

2020-11-02 12:45:18

人工智能

2020-04-23 14:08:14

云桌面

2015-06-29 10:28:39

Home交互設計蘋果

2013-03-27 15:58:36

思科硅光子技術SDN

2013-08-20 10:05:39

Windows Azu微軟創投云平臺

2011-10-17 14:10:54

云計算服務器

2013-02-26 13:21:33

SDN網絡世界軟件定義網絡

2014-11-27 17:10:46

身份認證認知指紋生物識別
點贊
收藏

51CTO技術棧公眾號

自拍偷拍21p| 3751色影院一区二区三区| 蜜芽一区二区三区| 日韩一区二区在线免费观看| 久久伦理网站| 日韩欧美第一区| 黄网站在线观看| 国产精品扒开腿做爽爽爽视频软件| 国产美女主播在线| 久操免费在线| 精品av久久久久电影| 韩国久久久久久| 中文字幕日韩一区二区三区| 成年人羞羞的网站| 国产99在线观看| 亚洲国产日韩在线一区模特 | 99视频日韩| 97超碰成人| 亚洲经典中文字幕| www欧美xxxx| 亚洲性视频网站| 99精品国自产在线| 日韩av成人| 狠狠色狠狠色综合日日91app| 国产欧美欧美| 日本aa在线| 亚洲综合大片69999| 黄频视频在线观看| 欧美阿v一级看视频| 99re在线观看| 国产综合久久久久久鬼色| 久久久久网址| 国产一区二区三区av电影 | 精品中文字幕久久久久久| 亚洲一区二区三区精品中文字幕 | 日本不卡免费播放| 一区二区三区高清不卡| 欧美黑人一区| 日韩视频永久免费观看| 国产精品一区二区三区美女| 婷婷开心激情综合| 奇米精品在线| 国产影视精品一区二区三区| 国产视频亚洲视频| 无人视频在线观看免费| 国产成人在线视频免费播放| 91在线网站视频| 精品影片在线观看的网站| 中文字幕国产亚洲2019| 9999精品成人免费毛片在线看| 国产精品中文字幕一区二区三区| 国产亚洲精品日韩| 亚洲va韩国va欧美va| 国产乱真实合集| 欧美电影一区二区三区| 国产精品区免费视频| 国产精品福利在线观看| 韩国成人动漫在线观看| 99麻豆久久久国产精品免费 | 欧美三级三级三级| 久久综合九色99| 日韩小视频在线| 国产日韩精品久久久| 色小说视频一区| 黑人精品一区| 亚洲色图50p| 国产精品久久久久无码av| 日本xxxxx18| 欧美r级电影在线观看| 激情综合中文娱乐网| 精品99又大又爽又硬少妇毛片| 91精品国产自产在线| 亚洲综合在线免费观看| 欧美激情在线免费| 黄网站app在线观看下载视频大全官网 | 成人在线免费观看91| 国产日韩欧美高清在线| 久久精品国产精品青草色艺| 久久se精品一区精品二区| 在线观看wwwxxxx| 色乱码一区二区三在线看| 亚洲人午夜精品| 中文字幕一区二区三| 亚洲一区二区日韩| sm久久捆绑调教精品一区| 日韩极品视频在线观看| 日本道色综合久久影院| 欧美少妇bbb| 久久青草欧美一区二区三区| 911久久香蕉国产线看观看| 日韩不卡免费高清视频| 国产精品美女主播在线观看纯欲| 亚洲做受高潮| 三级欧美日韩| 久久久伦理片| 美女视频久久黄| 亚洲国产国产| 黄色网址三级| 91在线播放国产| 亚洲性无码av在线| 一区二区三区影院| 成人激情免费网站| 亚洲国产裸拍裸体视频在线观看乱了中文| 四虎精品一区二区免费| 91社区在线| 中文字字幕在线中文乱码电影| 一级全黄肉体裸体全过程| 91免费国产视频| 午夜精品www| 久久综合久久美利坚合众国| 亚洲精品国产电影| 欧美日韩精品欧美日韩精品一 | 99国产精品免费视频观看| 亚洲色图美国十次| 在线色视频网| mm131国产精品| 99精品视频在线看| 亚洲一区不卡在线| 亚洲午夜激情免费视频 | 色综合伊人色综合网站| 久久在线精品| 美女100%一区| 国产素人视频在线观看| 欧美成人黑人| 欧美xxav| 99久精品视频在线观看视频| 日韩国产91| eeuss国产一区二区三区四区| 欧美日韩女优| 免费在线观看亚洲视频| 亚洲韩国青草视频| 日韩毛片久久久| 中文字幕国内自拍| 中文字幕日韩av电影| 99精品国产福利在线观看免费 | 国产成人精品一区二区三区福利| 国产精品99久久久久久似苏梦涵| 色网在线免费观看| 青春草视频在线观看| 少妇视频在线| 日本一区二区三区视频在线观看| 欧美一区深夜视频| 羞羞电影在线观看www| 97精品免费视频| 精品欧美aⅴ在线网站| 视频一区欧美精品| 自拍视频在线看| 97涩在线观看视频| 国产精品一区视频网站| 国产精品永久免费| 91精品国产精品| 亚洲精品一区在线观看| 亚洲欧洲一区二区在线播放| 99久久久久国产精品| 欧洲杯足球赛直播| 精品欧美久久久| 美女视频免费一区| 亚洲三级观看| 日韩视频在线直播| 亚洲小视频在线播放| 成人av网站观看| 国产亚洲欧美一区二区| 伊人久久大香线蕉精品| 菠萝蜜视频在线观看入口| www.av蜜桃| 免费高清在线| 91原色影院| 97视频在线观看网站| 午夜激情成人网| 日韩精品一级| 精品久久不卡| 成人毛片免费看| 免费xxxx性欧美18vr| 本田岬高潮一区二区三区| 色一情一乱一乱一91av| 亚洲精品国产免费| 欧美高清视频免费观看| 欧美日韩成人免费| 国产精品中出一区二区三区| 天天爱天天做天天操| 日韩写真在线| 牛牛电影国产一区二区| 大肉大捧一进一出好爽视频| 欧美牲交a欧美牲交aⅴ免费真| 中文字幕欧美一区二区| 性欧美高清come| 亚洲理论电影| 日韩vs国产vs欧美| 亚洲一区二区三区影院| 欧美精品一区二区三区国产精品| 亚洲一区二区三区久久| 国产精品视频分类| 国产成人精品一区二区三区视频| 精品三级久久久| 亚洲精品国产setv| 日韩国产成人精品| 91精品国产综合久久福利| 国产精品久久网| 三级在线播放| 欧美人与动xxxxz0oz|