国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

超越DeepSeek-R1,數學形式化準確率飆升至84% | 字節&南大開源

人工智能 新聞
字節跳動Seed團隊與南京大學聯合發布CriticLean框架,一舉將數學自然語言到Lean 4代碼的形式化準確率從38%提升至84%。

當人工智能已經能下圍棋、寫代碼,如何讓機器理解并證明數學定理,仍是橫亙在科研界的重大難題。

字節跳動Seed團隊與南京大學聯合發布CriticLean框架,一舉將數學自然語言到Lean 4代碼的形式化準確率從38%提升至84%。

該框架創新性地將評估模型置于核心位置。通過強化學習訓練的CriticLeanGPT模型,能像數學專家一樣精準判斷形式化代碼是否貼合原始語義,配合迭代優化機制,讓生成的定理證明既符合語法規范,又忠實于數學邏輯。

?前論?和數據代碼倉庫均已對外公開,歡迎開源使用。

圖片

數學形式化領域的核心挑戰

將自然語言描述的數學命題轉化為機器可驗證的形式化代碼(如Lean 4定理),是自動化定理證明領域的基礎性難題,其核心挑戰不僅在于語法層面的準確轉換,更在于對數學語義的深度理解與忠實還原。

盡管現有研究在生成模型與編譯有效性上取得一定進展,但在復雜問題的語義對齊上仍存在顯著瓶頸,具體體現在以下三方面:

  • 語義鴻溝:自然語言數學命題的隱含條件等難精準映射為形式邏輯,易出現前提翻譯偏差等問題,過往方法因缺語義一致性校驗,導致大量邏輯錯誤的形式化結果。
  • 評價缺位:對形式化結果的評價依賴編譯檢查或 LLM 簡單判斷,存在錯誤類型覆蓋不全、評價可靠性不足的問題,難以識別邏輯矛盾等。
  • 數據瓶頸:現有數學形式化數據集規模和多樣性不足、難度分布單一、語義校驗缺失,制約了模型應對復雜數學命題的能力。

引入Critic角色以實現可靠形式化

上述挑戰的核心在于:形式化流程中“評價”與“生成”的割裂。

CriticLean框架將引入強化學習的 Critic 模型,通過訓練專門的語義評價模型(CriticLeanGPT)、結合 Lean 4 編譯器反饋進行迭代生成。系統性解決語義對齊、評價可靠性與數據質量問題,為數學自動化形式化提供了全新范式。

圖片圖1:CriticLean框架通過編譯器與評估器的雙重反饋,實現數學形式化的迭代優化

CriticLeanGPT:會“挑錯”的數學評估專家

團隊基于Qwen2.5和Qwen3系列模型,通過兩步訓練打造專業評估器:

  • 有監督微調(SFT):在4.8萬條包含:數學、代碼以及數學語句-形式化代碼對一致性相關的Critic數據CriticLeanInstruct數據集上訓練,增強其針對語義判斷的評估能力。
  • 強化學習優化(RL):采用GRPO算法,以“判斷是否準確”和“輸出格式是否規范”作為獎勵信號,讓模型學會在評估中迭代提升。

該模型能識別12類常見錯誤,包括類型錯誤(占比24.9%)、數學表示錯誤(23.8%)等,能夠發現“代碼編譯通過但邏輯偏離原題”的隱性問題。

圖片

△圖2:不同類型錯誤的分布

CriticLeanBench:首個聚焦形式化任務語義評估的基準測試

CriticLeanBench是用于評估模型在數學形式化任務中關鍵推理能力的基準測試,旨在全面衡量模型將自然語言數學陳述轉化為經形式驗證的定理聲明等方面的表現.

其構建和實現過程如下:

CriticLeanBench 在數據收集階段,從多個數據來源選取數學陳述及對應的Lean 4 陳述,提交Lean 4陳述到編譯器。1)對于編譯失敗的語句,隨機采樣保留編譯器反饋信息。2)對于編譯成功的部分,通過使用 DeepSeek R1 結合專家校驗的方式保留正確和錯誤的樣本(錯誤的樣本保留錯誤信息)。

  • 數據來源多樣:數學陳述選取了Omni-MATH、AIME、U-MATH等多個數據源,這些數據源涵蓋了不同難度層次和數學領域的問題。有助于更全面準確地評估模型在不同數學內容上的表現。
  • 覆蓋多種錯誤類型:CriticLeanBench 覆蓋語法錯誤、語義錯誤、邏輯錯誤等多種問題,全面考察模型能力。
  • 確保評估可靠有效:通過專家審查和大模型驗證相結合的方式來保證評估基準的可靠性和有效性。在不同類別中選取具有代表性的樣本,確保涵蓋各種錯誤類型,從而使評估結果更可靠。

圖片

△圖3: CriticLeanBench 構建的概覽

圖片

△表1:CriticLeanBench 數據集統計信息與各類代碼基準數據集的對比

在包含500組測試樣本的CriticLeanBench基準中,CriticLeanGPT的準確率達到87%,遠超GPT-4o(67.8%)和Claude 3.5(74.2%),甚至超過DeepSeek-R1(84%)的表現。

  • 核心指標:Qwen3-32B-RL版本準確率達87%,true negative rate(正確識別錯誤樣本)達85.6%,遠超GPT-4o的40.0%。
  • 對比優勢:在相同模型規模下,經CriticLean訓練的Qwen2.5-32B模型準確率(78.6%)較基礎版(73.0%)提升5.6%,且對錯誤樣本的識別能力提升明顯。

圖片

△表2:在 CriticLeanBench 上的性能表現

模型大小的Scaling分析表明,模型性能隨規模提升穩步增強。

圖片

△圖4: 大語言模型在 CriticLeanBench 上的擴展性分析(? 表示閉源的大語言模型)

FineLeanCorpus:28.5萬條高質量形式化數據

依托CriticLean框架,團隊構建了目前規模最大、質量最高的數學形式化數據集之一:

  • 規模與多樣性:包含285,957條樣本,覆蓋從高中奧數到大學數學的16個領域,其中高難度子集(Diamond)含36,033條問題。
  • 質量保障:每條樣本均通過編譯器語法檢查與CriticLeanGPT語義驗證,人工抽檢準確率達84%以上。
  • 結構優勢:相比LeanWorkbook,其難度分布更均衡(多峰分布),領域覆蓋更全面(如解析幾何樣本量提升300%)。

圖片

△表3:FineLeanCorpus 的不同來源及數據集統計信息

與高度偏斜的 Lean-Workbook 相比,FineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布

圖片

△表4:數據集統計信息的對比

與高度偏斜的 Lean-Workbook 相比,FineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布

圖片

△圖5:數據集統計信息的對比()

實驗結果:大幅提高數學形式化準確率

將該框架應用于自動形式化流程,配合Kimina-Autoformalizer-7B生成器,準確率從38%(單輪生成)提升至84%(多輪迭代優化),其中語義評估環節貢獻了30個百分點的提升。

圖片

△表5:自動化形式化性能的人類評估準確率結果

論文鏈接:https://arxiv.org/pdf/2507.06181
項目鏈接:https://github.com/multimodal-art-projection/CriticLean

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-10 08:30:00

AI模型訓練

2025-02-25 14:46:59

2025-02-03 14:17:27

2025-02-19 08:00:00

2025-09-08 09:06:16

2025-03-04 09:00:00

2019-01-10 14:49:14

開源技術 工具包

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-03-13 11:07:30

2025-03-06 10:00:00

2023-09-19 14:56:00

模型訓練

2025-02-19 08:33:18

2025-05-06 15:39:53

DeepSeek-R英偉達開源

2018-11-14 10:01:30

谷歌開源機器學習

2025-03-13 08:13:47

DeepSeekMLLMVision-R1
點贊
收藏

51CTO技術棧公眾號

老色鬼在线视频| 日韩av中文字幕一区二区 | 美美哒免费高清在线观看视频一区二区 | 欧美成人一品| 91av视频导航| 国产精品99| 日韩精品中文字幕有码专区| 日本视频在线观看| 欧美色图12p| 在线播放日本| 91精选在线观看| 黄网站免费在线播放| 欧美色倩网站大全免费| 蜜桃视频在线观看视频| 精品久久久久久亚洲精品| 激情小说激情视频| 国产精品久久免费看| 污污动漫在线观看| 国产欧美日韩卡一| 国产精品视频黄色| 亚洲欧洲成人自拍| 人人在线97| 欧美日韩国产精品| 成人av毛片| 日韩欧美精品三级| 樱花草涩涩www在线播放| 日韩高清a**址| 亚洲第一二三四区| 日韩一区二区三区在线播放| 中文字幕成人| 51ⅴ精品国产91久久久久久| 精品视频亚洲| 国产综合 伊人色| 久久99精品一区二区三区三区| 成年丰满熟妇午夜免费视频| 久久奇米777| 男人天堂v视频| 欧美性猛交xxxx乱大交3| 日本综合在线| 国产偷国产偷亚洲清高网站| 亚洲视频资源| 日av在线播放中文不卡| 天天射综合网视频| 欧美一二三区| 91免费看`日韩一区二区| av在线影视| 欧美色精品在线视频| 电影一区二区三区| 4444欧美成人kkkk| 伊人久久大香线蕉av超碰演员| 亚洲图片都市激情| 久久麻豆一区二区| 久蕉依人在线视频| 亚洲精品一区二区三区不| 亚洲一区网址| 国产日韩一区二区| 成人精品视频一区二区三区| 色视频网站在线观看| 欧美美女一区二区在线观看| 忘忧草在线日韩www影院| 57pao成人永久免费视频| 国产欧美短视频| 国产午夜大地久久| 舔着乳尖日韩一区| 欧美1级2级| 97视频中文字幕| 成人免费看视频| 一级毛片在线| 日韩中文字幕在线视频| 欧美激情aⅴ一区二区三区| 国产成人艳妇aa视频在线 | 日韩中文字幕在线视频观看| 午夜电影网亚洲视频| 1区2区在线| 国产精品日韩在线观看| 激情综合网最新| 天堂а√在线8种子蜜桃视频| 亚洲最新中文字幕| 伊人精品成人久久综合软件| 日本精品一区二区三区四区| 9191国产精品| 色婷婷综合久久久久久| 五月天亚洲综合| 性做久久久久久| 91精品在线免费视频| 精品一区二区三区自拍图片区| 国产欧美日韩不卡免费| www免费视频观看在线| 日韩av大片在线| 成人午夜在线免费| 9191在线播放| 91久久久久久久久久久| 国产亚洲成年网址在线观看| 川上优av中文字幕一区二区| 亚洲free性xxxx护士hd| 国产欧美一区二区三区网站| 欧美亚洲系列| 成人免费视频网站入口| 国产欧美日韩不卡| 欧美与亚洲与日本直播| 国产日韩三区| 精品久久久久久电影| 亚洲福利合集| 黄色一级片黄色| 日韩欧美国产一区二区在线播放| 91精品电影| 亚洲成人基地| 性欧美长视频免费观看不卡| www.亚洲色图.com| 日本电影欧美片| 影音先锋亚洲视频| 日韩亚洲欧美综合| 亚洲高清资源| 午夜在线观看视频| 99在线看视频| 色诱视频网站一区| 日韩精品1区| 黄页网址在线观看| 国产a∨精品一区二区三区不卡| 国产欧美精品一区二区色综合| 伦一区二区三区中文字幕v亚洲| 欧美aaa在线观看| 日韩精品久久久久| 精品一区二区三区影院在线午夜 | 色综合天天天天做夜夜夜夜做| 亚洲专区视频| 国产高潮av| 国产精品成人国产乱一区| 1024国产精品| 日韩欧美自拍| jzzjzzjzz亚洲成熟少妇| 99视频网站| 欧美日韩国产a| 热久久久久久久| 都市激情亚洲综合| 国产乱子夫妻xx黑人xyx真爽 | 免费成人美女女| 亚洲熟妇av日韩熟妇在线| 在线播放国产精品| 91美女在线观看| 视频国产精品| 欧美日韩一区二区三区69堂| 97av在线视频| 欧美日韩国产丝袜另类| 欧美色图首页| 欧洲中文在线| 丁香六月激情网| 久久成人国产精品| 欧美激情在线一区二区三区| 日韩美女国产精品| 黄色电影免费在线看| 明星裸体视频一区二区| 亚洲欧美第一页| 久久久久久**毛片大全| 国产精品美女久久久久久不卡| 国产青青草在线| 在线观看欧美一区| 久久久久久97| 91国产视频在线观看| 男男视频亚洲欧美| 亚洲人体在线| 又黄又爽在线免费观看| 欧美激情第一页在线观看| 中文字幕亚洲情99在线| 亚洲免费伊人电影| 亚洲专区一区二区三区| 黄页免费欧美| 高清色视频在线观看| 日韩精品一区二区三区丰满| www日韩中文字幕在线看| 亚洲自拍偷拍欧美| 久久婷婷久久| 亚洲一区二区三区四区电影| 日产精品久久久久久久性色| 亚洲欧美日韩精品在线| 欧美国产第二页| 欧美喷潮久久久xxxxx| 成人激情免费电影网址| 成人久久一区| 无码小电影在线观看网站免费| 国产91福利| 在线天堂一区av电影| 日韩美女中文字幕| 亚洲第一福利视频| 亚洲精品成人精品456| 秋霞影院一区二区| 神马午夜久久| 一区二区乱码| 日本福利片高清在线观看| 97免费视频观看| 成人啪啪免费看| www.99久久热国产日韩欧美.com| 欧美性xxxx极品hd满灌| 国产精品一区久久久久| 亚洲精品二区三区| 亚洲国产欧美国产第一区| 中文字幕在线视频区| 人妻熟妇乱又伦精品视频| 久久精品国产第一区二区三区最新章节| 欧美成人sm免费视频|