国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Codeforces難題不夠刷?謝賽寧等造了個AI出題機,能生成原創編程題

人工智能 新聞
隨著大型語言模型(LLM)朝著通用能力邁進,并以通用人工智能(AGI)為最終目標,測試其生成問題的能力也正變得越來越重要。

Rich Sutton 曾說過:「AI 只能在可以自我驗證的范圍內創造和維持知識。」愛因斯坦與英費爾德在合著的《物理學的進化》中也寫道:「提出一個問題往往比解決問題更重要,后者或許僅僅是數學或實驗技巧的問題。而提出新的問題、新的可能性,從新的角度審視舊的問題,則需要創造性的想象力,并標志著科學的真正進步。」

隨著大型語言模型(LLM)朝著通用能力邁進,并以通用人工智能(AGI)為最終目標,測試其生成問題的能力也正變得越來越重要。尤其是在將 LLM 應用于高級編程任務時,因為未來 LLM 編程能力的發展和經濟整合將需要大量的驗證工作。

首先,為編程競賽出題需要比解決問題更深刻的算法理解。

例如,基礎問題可能會被歸結為可識別的模板,用簡單的技巧就能解決;許多標準的編程問題也常常允許提交部分正確或樣板化的解決方案,這可能會掩蓋錯誤的推理過程。而競賽編程問題有著嚴格的標準,旨在評估對底層算法設計原則、數據結構和復雜性權衡的更深層次理解。驗證數量龐大的可能解法,并充分覆蓋各種捷徑或邊界情況是極具挑戰性的,但這對于競賽編程問題而言是必需的。因此,出題不僅包含了解決問題的所有挑戰,甚至還超越了它。

其次,更好的出題能力將帶來更嚴謹的競賽編程基準測試。由于像 Codeforces 和 AtCoder 這類頂級平臺的官方測試數據并不公開,研究人員目前依賴于合成的數據集,如 CodeContests+、TACO 和 HardTests。

然而,分析表明,現有的測試數據集可能同時存在高誤報率(FPR)和高漏報率(FNR)。例如,一個時間復雜度不佳的貪心算法可能會通過一系列小規模的隨機測試,但卻會在旨在暴露其缺陷的對抗性構造案例面前失敗。這一關鍵弱點造成了一個扭曲的評估環境,獎勵了那些能發現捷徑的模型。

第三,成功地提出新穎的挑戰可能為模型的自我完善和 AGI 鋪平道路,同時也能驗證模型在復雜軟件棧中的部署情況。

那么,我們能否像訓練 AI 解決問題一樣,訓練它提出高質量、甚至是人類想不到的新問題呢?最近,LiveCodeBench Pro 團隊給出了一個響亮的回答:AutoCode。這是一個系統性的框架,可在一個閉環、多角色的系統中使用 LLM,以自動化競賽編程問題創建和評估的整個生命周期。

  • 論文標題:AutoCode: LLMs as Problem Setters for Competitive Programming
  • 論文地址:https://arxiv.org/abs/2510.12803v1
  • 項目頁面:https://livecodebenchpro.com/projects/autocode/overview

值得注意的是,該團隊包含來自十個機構的研究者,共有 5 位共同一作。此外,作者名單中還包括謝賽寧等著名研究者。

整體而言,這項研究做出了兩大貢獻:

  • 一個增強的驗證器-生成器-檢查器(Validator-Generator-Checker)框架,它在測試用例生成方面實現了最先進的可靠性。
  • 一個用于生成高質量新問題的創新過程。該過程是從一個「種子問題」開始,以在一個有前景的方向上啟發 LLM。

測試用例生成

該團隊的測試用例生成過程是一個結構化的框架,旨在實現最大程度的嚴謹性和覆蓋率。

如圖 1 所示,該框架始于驗證器(Validator),它是整個系統的基石。其功能是確保任何給定的輸入都嚴格遵守問題描述中指定的所有約束。一個驗證器對于最小化漏報率(FNR)至關重要,因為它能防止正確的程序在格式錯誤的數據上失敗。

接下來,生成器采用多樣化的策略來創建廣泛的輸入,旨在減少誤報率(FPR),即錯誤或低效的程序被錯誤地判定為正確。生成器產生的任何無效案例都會被驗證器過濾掉,從而確保該團隊獲得一套高質量的輸入。

最后,為了評估參賽者的輸出,檢查器會將其與參考解法的輸出進行比較。

而對于交互式任務,交互器(Interactor)會與參賽者的程序進行多輪對話以給出最終判決。

由于該團隊的一個突出目標是為 RLVR(Reinforcement Learning from Verified Results)提供高質量的驗證器,該團隊特別關注降低誤報率(FPR)。該團隊將測試用例(test cases)(輸入 - 答案對)與測試數據(test data)區分開來,后者還包括評估所需的檢查器和交互器程序。

基準測試:測試用例的穩健性

為了嚴格評估該團隊的測試用例生成框架,他們建立了兩個不同的基準。

主要基準包含 7538 個問題,來源于著名現有數據集的交集:CodeContests+、CodeContests、HardTests 和 TACO。

值得注意的是,這個大規模集合不包含交互式問題,并且由于這些數據集固有的篩選,其測試數據生成的平均難度略低于典型的 Codeforces 比賽。

為了解決這個問題并在更具挑戰性的真實條件下測試新系統,該團隊創建了第二個基準,包含了 720 個來自 Codeforces 的近期、有評分的比賽問題。這個集合是完全未經過濾的,包括了那些以難以處理著稱的交互式問題和需要復雜、結構化測試數據的問題。該團隊表示,無法在這個較新的基準上評估先前的方法,因為它們的數據生成代碼庫并未公開。

該團隊的評估基于三個關鍵指標:

  • 一致性(Consistency)衡量該團隊的測試得出的判決與官方判決之間一致的總體百分比。該團隊進一步將不一致的情況分解為兩個關鍵的錯誤率。
  • 誤報率(FPR)定義為被該團隊的生成測試錯誤地接受的官方不正確解法的比例。
  • 漏報率(FNR)是被該團隊的測試錯誤地拒絕的官方正確解法的比例。

與其他基準的比較

該團隊在包含 7538 個問題的基準上,將 AutoCode 與四個領先的基準進行了評估。

如表 1 所示,該團隊的框架與官方判決的一致性達到了 91.1%。這標志著一個重大的飛躍,因為之前的方法的一致性未能超過 81.0%。至關重要的是,AutoCode 將誤報率(FPR)大幅降低至僅 3.7%,漏報率(FNR)降低至 14.1%,這代表著這兩項指標相較于當前最先進技術均減少了約 50%。

圖 2 展示了錯誤判決的分布,顯示了大多數問題的判決與地面真實判決是一致的。

為了進一步測試該系統的穩健性,該團隊還整理了一個更具挑戰性的基準,包含了 720 個近期的、未經過濾的 Codeforces 問題,包括復雜的交互式任務。

如表 2 所示,AutoCode 保持了其卓越的性能,實現了 98.7% 的一致性。這一結果驗證了該團隊的方法在現代、困難問題上的有效性,而先前的方法無法在這些問題上進行評估。

該團隊也通過消融實驗驗證了方法的有效性。

在建立起如此強大的測試用例生成能力之后,研究人員便將目光投向了更具創造性的任務:直接生成全新的高質量問題。

問題生成

該團隊新提出的問題生成框架建立在前述的穩健測試生成框架(如圖 1 所示)之上,但引入了一個關鍵的雙重驗證協議,以確保在沒有人工干預的情況下實現正確性。

每個生成的問題都由頂尖的人類競賽程序員根據一個 6 級量表進行評分。該團隊咨詢 8 位人類專家出題人,他們都表示在創作新問題時,常常會基于某個特定的現有問題。通過對這樣一個「種子問題」的某些條件進行添加、刪除或修改,他們可以創造出新的、通常更困難的、需要新穎洞察力的問題。

受他們見解的啟發,該團隊的方法是首先隨機選擇一個 Codeforces 問題(難度評分低于 2200)作為「種子問題」。LLM 的任務是通過增、刪、改這個種子問題的某些條件來生成一個新問題,并同時提供一個高效的參考解法(std.cpp)和一個暴力解法(brute.cpp)。

brute.cpp 通常時間復雜度更高,但基本不可能出錯,因此該團隊利用它來壓力測試問題的有效性。使用該團隊增強的測試用例生成技術,該團隊構建了一套全面的測試數據,完全覆蓋了小規模案例。然后 brute.cpp 和 std.cpp 都在這個數據集上運行。只有當對于每一個測試用例,兩個程序的輸出(其中暴力解法可能因超時而合法地無法完成)都被檢查器成對地驗證為一致的答案和輸出時,一個問題才被認為是正確的。

這種設計的巧妙之處在于,它利用了「雖然慢但幾乎絕不會錯」的暴力解法,為「雖然快但可能存在邏輯漏洞」的高效解法提供了一個無需人工干預的、絕對可靠的「事實標準」,從而實現了自動化的正確性校驗。

這個雙重驗證協議(其中 brute.cpp 作為初始的地面真實,并且經過驗證的參考解法還要再經過一個完整的測試生成周期)成功地過濾掉了 27% 的易錯問題,將 LLM 提供的參考解法的正確率從 86% 提高到了 94%。

經過篩選后,超過 80% 的問題被標注為具有足夠的質量,可以作為模型的訓練數據,并且 23% 的問題涉及新穎或創造性的設計。該團隊在圖 3 中展示了詳細的評分標準和分數分布。

接下來,該團隊總結了關于 LLM 在問題生成方面表現的幾個關鍵發現。

  • 發現 1:LLM 能夠生成它們自己無法解決的可解問題。
  • 發現 2:LLM 傾向于通過組合現有問題框架和強調知識與實現來創造新問題。也就是說,LLM 更擅長「知識重組」,而非原創創新。
  • 發現 3:新問題的難度增幅往往大于種子問題,且當相應種子問題難度適中時,生成問題的質量最高。
  • 發現 4:人類專家和 LLM 在對問題質量和新穎性的判斷上幾乎沒有相關性。
  • 發現 5:生成問題的難度和相較于種子問題的難度增益,是比 LLM 自我評估更好的問題質量指標。

總而言之,這些發現為我們描繪了當前 LLM 在創造性任務上的清晰畫像:LLM 是強大的「知識重組者」,而非一個真正的「原創思想家」。

總結

在這項工作中,LiveCodeBench Pro 團隊提出了 AutoCode,一個利用 LLM 作為競賽編程出題人的閉環多角色框架。

通過將驗證器-生成器-檢查器(及交互器)框架與雙重驗證協議相結合,AutoCode 在測試用例生成方面實現了最先進的可靠性,并超越了先前的方法,能夠生成全新的、達到競賽質量的問題。

在超過 7,500 個問題和近期的 Codeforces 基準上的大量實驗表明,AutoCode 大大減少了誤報和漏報,與官方判決的一致性超過 98%,并成功地產生了經專家程序員驗證的全新問題。除了測試生成,該團隊的分析還揭示了 LLM 在創造性問題創作方面的優勢和劣勢。

雖然模型擅長算法知識的重組,但它們難以引入真正新穎的推理范式或無懈可擊的樣例設計。

盡管如此,該團隊表明,難度和難度增益可以作為問題質量的可靠智能體信號,為實現自我博弈提供了一條可擴展的路徑。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-09 15:00:24

AIprompt工具

2024-12-23 13:50:00

數據訓練模型

2024-12-23 07:15:00

多模態大模型MLLM人工智能

2024-03-04 07:00:00

地圖虛擬智能

2025-04-08 09:10:00

模型訓練AI

2025-07-08 09:18:12

AI模型論文

2025-12-15 08:38:00

視覺模型代碼

2025-04-03 11:11:50

2025-04-14 09:38:00

2025-11-24 14:00:59

謝賽寧李飛飛LeCun

2025-06-16 08:53:00

2022-12-23 10:15:44

模型AI

2025-11-10 17:11:13

AI李飛飛模型

2025-11-17 08:40:00

3DAI視覺

2024-10-14 13:20:00

2025-10-23 16:56:40

AI模型訓練

2025-11-27 08:52:46

2025-08-06 09:29:30

2025-04-21 16:32:29

視覺模型AI

2025-01-20 08:35:00

模型生成AI
點贊
收藏

51CTO技術棧公眾號

黄色精品在线观看| 中文字幕乱码中文乱码51精品| 粉嫩高潮美女一区二区三区| 国产日韩三区| 先锋影音男人资源| 99久久综合| 国产精品十八以下禁看| 日韩一区二区在线播放| 女人高潮特级毛片| 国产精品久久国产精麻豆99网站| 日韩在线视频在线| 国内精品视频666| 天天综合中文字幕| 国产在线精品不卡| 波多野结衣av一区二区全免费观看| 欧美96一区二区免费视频| 视频一区二区三区免费观看| 日本va欧美va精品| 亚洲不卡1区| 国产一区二区三区综合| 在线观看17c| 成人精品国产一区二区4080| aaaaaa亚洲| 亚洲视频一二三| 在线视频国产福利| 色丁香久综合在线久综合在线观看| 九色在线视频蝌蚪| 日韩西西人体444www| 精品丝袜在线| 久久婷婷国产麻豆91天堂| 澳门成人av| 国产精品自产拍在线观看中文| 99久久精品费精品国产| 国产一区免费在线观看| 老鸭窝91久久精品色噜噜导演| 亚洲春色在线视频| 26uuu另类欧美| 中午字幕在线观看| 午夜一区不卡| 日韩三级电影网站| 成人午夜av在线| 成人网址大全| 在线观看一区日韩| 香蕉成人av| 97香蕉超级碰碰久久免费的优势| 日韩免费av| 日本欧美精品久久久| 成人av电影在线观看| 成人福利影院| 色综合天天性综合| 男女视频在线| 伊人男人综合视频网| 全球av集中精品导航福利| 亚洲已满18点击进入在线看片 | 欧美一区中文字幕| 在线成人视屏 | 不卡一区视频| 国产精品偷伦视频免费观看国产| 国产真实久久| 国产高清av在线播放| 自拍偷自拍亚洲精品播放| av成人手机在线| 精品国产一区二区在线| 欧美中文一区二区| 日本在线观看一区二区| 在线中文字幕日韩| 亚洲午夜av| aiss精品大尺度系列| 2018中文字幕一区二区三区| 综合国产精品| 农民人伦一区二区三区| 天堂a中文在线| 91精品国产综合久久久久| 日韩av中字| 欧洲日韩成人av| 在线观看国产精品入口| 久久久亚洲综合网站| 久久精品免费一区二区| 中文字幕亚洲无线码a| 色女人在线视频| 国内精品美女av在线播放| 国产精品色网| 羞羞在线视频| 亚洲激情视频在线播放| 欧洲杯什么时候开赛| 日本老太婆做爰视频| 精品二区三区线观看| 91精品在线免费视频| 午夜精品短视频| 色综合久久久久久久久| 亚洲伊人精品酒店| 欧洲一区二区在线| 日本不卡不卡| 成人av播放| 国产精品人人做人人爽人人添| 天堂中文在线资| 久久久久久久久电影| 精品亚洲免费视频| 国产网友自拍视频导航网站在线观看 | 在线观看日本一区| 精品成人久久av| 亚洲精品a区| 欧美精三区欧美精三区| 小嫩嫩12欧美| 男人揉女人奶房视频60分| 日韩欧美另类在线| 66久久国产| 一级毛片免费视频| 国产91精品高潮白浆喷水| 久久久久久影视| 黑人精品一区| 一级日韩一区在线观看| 欧美夫妻性生活| 欧美一区成人| 中文天堂在线观看| 国产精品久久久久91| 亚洲女同ⅹxx女同tv| 国产精品x8x8一区二区| 日韩手机在线观看视频| 国产一区二区三区视频| 精品一区二区三区av| 国内小视频在线看| 欧美亚洲免费高清在线观看| 欧美色综合久久| 日韩av毛片| 国产在线精品一区二区三区》| 亚洲最大色网站| 欧美日韩精品在线一区| 99reav| 日韩美女在线观看一区| 亚洲精品一二三| 欧美一区二区三区激情视频| 在线免费国产| 91麻豆国产精品| 在线免费一区三区| 亚洲第一网站| jizz性欧美| 91手机视频在线| 日韩精品极品毛片系列视频| 国产综合一区二区| 亚洲日本天堂| 日韩国产成人无码av毛片| 久久精品电影网站| 久久久久久久久久久久久女国产乱| 亚洲欧洲国产精品一区| 亚州福利视频| 国产一区二区在线免费| 欧美日韩中文字幕一区二区| 久久久久免费| 超薄肉色丝袜脚交一区二区| 成人在线观看a| 国产精品欧美激情| 在线视频你懂得一区| 久久av一区| 2021中文字幕在线| av免费观看网| 国产精品国产三级国产aⅴ9色 | 亚洲欧美第一页| 久久看人人爽人人| 精品日韩一区| 日本a在线播放| www.夜夜爱| 日韩av免费一区| 91福利资源站| 久久99国产精品久久99果冻传媒| vam成人资源在线观看| 最近中文视频在线| 神马影院一区二区| 久热99视频在线观看| 一区av在线播放| 久久久久国产精品一区二区| 123成人网| 情se视频网在线观看| 欧洲精品一区色| 久久久久久久久综合| 91精品1区2区| 国产风韵犹存在线视精品| 久久99国产精品久久99大师 | 亚洲一二三区视频在线观看| 亚洲欧美卡通另类91av| 久久av网站| 黄色网址免费在线观看| 国产淫片av片久久久久久| 91午夜在线播放| 日韩在线观看你懂的| 亚洲午夜av在线| 国产大陆精品国产| 欧美va天堂| 欧美国产中文高清| 草莓福利社区在线| 国精产品999国精产品官网| 亚洲一区二区三区在线观看视频| 午夜精品福利视频| 欧美日本高清视频在线观看| www激情久久| 国产亚洲高清视频| 欧美日韩破处| 日本高清不卡一区二区三区视频| 午夜影院在线免费观看| 亚洲色图38p|