国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

7B級形式化推理與驗證小模型,媲美滿血版DeepSeek-R1,全面開源!

人工智能 新聞
近日,由香港科技大學牽頭,聯合中科院軟件所、西安電子科技大學、重慶大學等單位,開源了一系列形式化推理與驗證大模型,僅用 7B,即可在相關任務上獲得與 671B 滿血版 DeepSeek-R1 相當的水平!

研究團隊構成:香港科技大學、中國科學院軟件研究所、西安電子科技大學和重慶大學。團隊核心成員:香港科技大學的研究助理教授曹嘉倫,主要研究領域包括 AI&SE、人工智能測試、形式化驗證等;中國科學院軟件研究所副研究員陸垚杰,主要研究領域包括大語言模型及其應用。

隨著 DeepSeek-R1 的流行與 AI4Math 研究的深入,大模型在輔助形式化證明寫作方面的需求日益增長。作為數學推理最直接的應用場景,形式化推理與驗證(formal reasoning and verification),也獲得持續關注。

然而,近期的形式化推理大模型大多只針對單一形式化語言模型,缺乏對多形式化語言多形式化任務場景的深度探索。 

近日,由香港科技大學牽頭,聯合中科院軟件所、西安電子科技大學、重慶大學等單位,開源了一系列形式化推理與驗證大模型,僅用 7B,即可在相關任務上獲得與 671B 滿血版 DeepSeek-R1 相當的水平!

  • 論文標題:From Informal to Formal–Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs
  • 論文鏈接:https://arxiv.org/abs/2501.16207
  • Hugging Face 模型鏈接:https://huggingface.co/fm-universe

正如 Meta FAIR 和斯坦福大學等多所機構在去年年底的立場論文(Formal Mathematical Reasoning: A New Frontier in AI)中所指出的,多語言形式化驗證模型正日益成為業界發展的趨勢

事實上,形式化驗證(formal verification)不僅是計算機科學的核心問題,也是形式化數學最直接的應用之一。然而,由于其門檻高、人力消耗大和部署成本高,形式化驗證的普及與推廣一直受到限制。

憑借大模型在語義理解、代碼自動生成等方面的優勢,引入該技術有望大幅加速驗證流程,從而有效降低人力成本并提升自動驗證效率。

形式化任務拆解

研究團隊首先對形式化驗證任務進行了分層拆解,從非形式化的自然語言輸入到可驗證的形式化證明(formal proof)或可檢測的模型(model checking)。在此基礎上,研究團隊將傳統的端到端形式化驗證流程細化為六個子任務,包括驗證需求分解、形式化規約片段生成、規約補全、填空,以及代碼到形式化規約的自動生成。

圖 1 形式化驗證任務拆解

這一過程可以與代碼生成(code generation)任務相對照:代碼生成任務旨在將自然語言描述的功能轉換為相應的代碼實現,而形式化證明生成或模型生成(formal proof/model generation)則將自然語言描述的驗證需求轉化為由形式化語言編寫的形式化證明(proof)或模型(model)

圖 2 從代碼生成到形式化證明生成

研究團隊從 Github 收集了五種形式化語言的經過一系列數據收集、清洗與整理,最終得到了 14k 數據用于訓練微調(fm-alpaca),4k 數據用于測試(fm-bench)。

圖 3 數據準備過程

大模型在形式化細分任務上的能力對比

通過對五種形式化語言(Coq, Lean4, Dafny, ACSL, TLA+)在形式化證明寫作上六種細分能力對比,研究團隊獲得了一些有趣的發現。

形式化任務的角度(如圖 4),未經微調的通用指令大模型更擅長從代碼生成形式化證明(準確率 43.57%),而不擅長從自然語言生成形式化證明(8.65%~10.61%),遠低于代碼生成任務(從自然語言生成編程語言如 Python)。

滿血版(671B)DeepSeek-R1 平均準確率為 27.11%,而其他參數規模在 8B 至 72B 的模型平均準確率僅介于 7.32% 與 18.39% 之間。

另外,研究團隊觀察到在形式化規約填空的任務中,較大規模的模型往往不及小規模模型。例如,70B 的 llama3.1-instruct 模型在填空(列「ProofInfill」)上的準確率僅為 8B 模型的一半。這一現象可能與這些模型的微調策略:指令模型被訓練得更擅長生成,而非填空。研究團隊還發現,盡管 70B 級規模模型填寫的形式化規約片段看似更加正確,但因常常包含額外的內容,導致「說多錯多」,因此最終的準確率反而不如小模型。

圖 4 驗證任務上的差異(微調前)

大模型在不同形式化語言上的能力對比

形式化語言的角度看(見圖 5),大模型在 ACSL 上的效果最好(34.92%),Dafny 次之(15.92%)。研究團隊認為,原因可能在于:一方面,ACSL 語言的關鍵詞更貼近自然語言,其語法結構又類似于 C 語言,使得生成過程更為順暢;另一方面,ACSL 規約片段相對較短,而 Coq 和 TLA 等語言的規約片段較長,生成難度更大。

圖 5 還顯示,僅通過增加生成次數(從 1 次提升至 5 次),即可在不用微調的情況下,得到 10.82%~63.64% 的提升。之后,進一步結合上下文學習(in-context learning),可以進一步將準確率翻番(51.33%~532.83%)。

圖 5 形式化語言上的差異(微調前)

微調帶來的能力提升

接下來,研究團隊在 3 個 7~8B 的基礎模型(LLaMA-3.1,Qwen-2.5,Deepseek-coder-v1.5)上用 fm-alpaca(14k 數據),同時對比了普通的對話型指令微調數據集 tulu-v3 和 ultra-chat。

如圖 6,經過形式化數據 fm-alpaca 微調之后,大模型在各類形式化任務上均有明顯提升(模型名以「fma」為后綴的模型),性能幾乎翻倍

值得注意的是,這種顯著提升僅用了 14k 條形式化相關的指令數據(instruction-response pairs)。

有趣的是,當把形式化數據和對話型指令數據混合微調時,能進一步提升模型性能,從 21.79%(僅用 fm-alpaca 微調)提升至 23.75%(fm-alpaca + ultrachat)和 25.16%(fm-alpaca + tulu)。

圖 6 微調前后結果對比

對比圖 5 與圖 6 還可以發現,盡管增加迭代次數和上下文學習可以提升準確率,但仍比不上微調帶來的提升。

能力遷移探究

最后,研究團隊進一步探索了形式化數據微調對大模型數學、推理和編程等任務上的「遷移能力」。他們通過對比微調前后在上述任務上的表現差異,以驗證大模型能否通過形式化驗證能力訓練中習得推理、數學等「元能力」。

實驗結果令人驚喜:利用形式化數據(FM-Alpaca)進行微調后,模型在數學、推理、代碼任務上的平均性能平均性能提升達到了 1.37% 至 5.15%。

該觀察或為未來探索模型「元能力」、「能力遷移」提供啟發。

總結

  • 高質量數據集構建:研究團隊構建了包含 18000 對高質量指令 - 響應對的微調數據集(fm-alpaca)與評估集(fm-bench),覆蓋 5 種主流的形式化語言(Coq, Lean4, Dafny, ACSL, TLA+)和 6 種不同形式化推理與驗證任務;
  • 形式化任務分解與評估:將從非形式化的自然語言需求到形式化、可驗證的證明的轉換過程細分為六個子任務,明確了每一步的目標和挑戰,有助于精確定位大模型的能力瓶頸;
  • 微調模型開源:通過微調,7~8B 的小模型在生成形式化證明的能力得到顯著提升,模型的性能提高了近三倍,在評估任務上媲美 671B 滿血版 DeepSeek-R1;
  • 后續啟發與影響:基于三種基礎模型的微調模型均已開源;完整的執行上下文和自動驗證流程也將開源,這將有助于降低形式化驗證的門檻,減少人力消耗及部署成本。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-27 10:28:32

2025-03-06 17:29:21

2025-02-12 12:45:59

2025-06-25 08:54:03

模型訓練AI

2025-06-06 09:07:00

模型LLMAI

2025-07-30 09:06:02

2025-03-07 08:30:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-17 12:13:26

AI模型生成

2025-02-03 14:17:27

2025-04-11 12:04:58

2025-03-05 03:00:00

DeepSeek大模型調優

2025-03-19 10:10:43

2025-03-04 09:00:00

2025-02-13 01:00:00

2025-03-07 08:50:03

點贊
收藏

51CTO技術棧公眾號

国产精品日韩欧美| 欧美国产在线电影| 国产毛片视频| 岛国精品在线播放| 国产精品免费区二区三区观看| 亚洲资源在线| 日韩av在线不卡| av免费网站在线观看| 欧美日韩另类视频| 超碰成人福利网| 91美女在线视频| 国产精品久久国产| 久久99精品国产麻豆不卡| 成人91免费视频| 天天综合国产| 国产精品久久久久久久久免费| 成人资源在线| 欧美日本中文字幕| 国产精品国产三级在线观看| 一区二区成人av| 一呦二呦三呦精品国产| 亚洲精品av在线播放| av毛片在线| 欧美va亚洲va| 日韩精品在线电影| av成人福利| 亚洲国产精品中文| 国产原厂视频在线观看| 欧美日韩中字一区| youjizz在线播放| 欧美精品一二三| 狂野欧美激情性xxxx欧美| 日韩丝袜情趣美女图片| www在线免费观看视频| 欧美疯狂做受xxxx富婆| 国产丝袜在线| 亚洲精品一区二区在线观看| wwwwxxxx在线观看| 亚洲精品xxxx| 欧美一级网址| 97人人做人人爱| 蜜桃精品wwwmitaows| 成人性生交大片免费观看嘿嘿视频| 国产精品久久久久久久久妇女| 成人av蜜桃| 久久国产麻豆精品| 欧美老熟妇喷水| 国产精品久久久久久久久免费桃花 | 国产成人午夜性a一级毛片| 在线色欧美三级视频| 精品一区二区三区中文字幕| 欧洲永久精品大片ww免费漫画| 欧美一区二区三区高清视频| 国产伦精品一区二区三| 久久精品30| 成年人小视频网站| 五月天一区二区| 好吊日av在线| 午夜剧场成人观在线视频免费观看| 亚洲免费成人av在线| 国产区一区二区三区| 成人av在线资源| 中文在线有码| 亚洲欧洲一区二区三区在线观看| 日韩三级网址| 99国产视频| 久久婷婷国产综合精品青草| 深夜福利免费在线观看| 亚洲国产天堂久久综合网| 国产电影一区| 国产日韩一区二区| 日本电影在线观看网站| 日韩精品极品在线观看| 久久99精品国产自在现线| 国内视频一区| 国产亚洲一区字幕| 日本美女在线中文版| 欧美激情乱人伦| 视频一区中文字幕| gay网站在线| 亚洲国产天堂久久国产91| 精品成人影院| 日本人体一区二区| 在线欧美日韩精品| 97青娱国产盛宴精品视频| 日韩福利影院| 亚洲成人自拍偷拍| 图片一区二区| 蜜桃成人在线| 亚洲成人综合网站| 97色婷婷成人综合在线观看| 免费看成人片| 亚洲国产成人高清精品| 白白色在线观看| 国产精品一二三视频| 成人免费看黄yyy456| 69av在线| 人体精品一二三区| 成人一级黄色片| 黄色网在线看| 91亚洲精品视频| 久久夜色精品一区| 深夜在线视频| 91精品国产高清久久久久久91裸体| 久久久午夜电影| 在线观看特色大片免费视频| 国产精品手机在线| 亚洲综合av网| 欧美人体视频| 久久久国产欧美| 色婷婷综合成人av| 精品一区二区三区久久久| 久做在线视频免费观看| 国产脚交av在线一区二区| 99久久婷婷国产综合精品电影| 国产精品丝袜一区二区三区| 久久视频一区二区| 四虎影视4hu4虎成人| 亚洲国产欧美日韩| 色哦色哦哦色天天综合| 久久久五月天| 最新中文字幕在线播放| 免费成人在线观看av| 91极品视觉盛宴| 国产精品第十页| 三级毛片在线免费看| 666精品在线| 精品久久人人做人人爱| 亚洲激情网站| 国产主播喷水一区二区| 中文字幕在线播放不卡一区| 男女啪啪999亚洲精品| 久久国产精品免费观看| 亚洲高清色综合| 日韩激情视频网站| caoporm免费视频在线| 欧美大香线蕉线伊人久久国产精品| 欧美网站在线观看| 欧美粗暴jizz性欧美20| 你懂的在线免费观看| 99视频在线| 欧美日韩色综合| 男女精品视频| 暧暧视频在线免费观看| 黑人巨大国产9丨视频| 国产亚洲视频在线观看| 97国产一区二区| 一区二区三区亚洲变态调教大结局 | 99久久精品免费看国产四区| 色婷婷久久久综合中文字幕 | 日本激情视频在线观看| 就去色蜜桃综合| 日韩欧美国产三级电影视频| 麻豆一区二区在线| 99久久伊人| 久热精品在线观看视频| 国产精品2018| 日韩欧美在线国产| 日韩在线卡一卡二| 日本国产亚洲| 日本1区2区| 国产尤物91| 国产婷婷97碰碰久久人人蜜臀 | 理论片日本一区| 水蜜桃一区二区| 亚洲视频一区二区三区| 欧美性猛交xxxx富婆弯腰| 国产成人亚洲综合a∨猫咪 | 亚洲精品久久久久久下一站| 欧美欧美午夜aⅴ在线观看| 成人免费福利在线| 精品毛片三在线观看| 亚洲大胆av| xx欧美视频| 欧美日韩在线免费播放| 日本欧美中文字幕| 欧美精品在线视频| 国产乱码字幕精品高清av | 亚洲精品成人网| 国产三级欧美三级日产三级99| 精品免费av| 草莓视频丝瓜在线观看丝瓜18| 欧美 日韩 国产在线观看| 国产精品久久久久久久9999| 欧美大片在线观看一区二区| 国产欧美精品一区二区色综合| 午夜精品视频| 日韩一级特黄| 欧美69xxxxx| 天堂8在线天堂资源bt| 日本亚洲欧美成人| 日韩欧美www| 中文字幕一区二区三区精华液| 亚洲永久字幕| 希岛爱理av免费一区二区| 八戒八戒神马在线电影| 欧美三级理论片| 欧美日韩综合网| 日韩av123| 亚洲女人天堂网|