国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

360智腦開源Light-R1!1000美元數學上首次從零超越DeepSeek-R1-Distill

人工智能 開源
360 智腦聯合北大開源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓練,在數學、科學和代碼上取得了接近 DeepSeek-R1 滿血版的優異效果。

2025 年 3 月 4 日,360 智腦開源了 Light-R1-32B 模型,以及全部訓練數據、代碼。僅需 12 臺 H800 上 6 小時即可訓練完成,從沒有長思維鏈的 Qwen2.5-32B-Instruct 出發,僅使用 7 萬條數學數據訓練,得到 Light-R1-32B,在 AIME24 測試基準中取得 76.6 分、AIME25 取得 64.6 分,在數學評測上開源首次實現從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前,360 智腦聯合北大開源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓練,在數學、科學和代碼上取得了接近 DeepSeek-R1 滿血版的優異效果。Light-R1-32B 則不依賴 DeepSeek-R1-Distill,從沒有長思維鏈的模型出發,在數學上從零復現并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開源社區發展。

圖片

注:表中為 64 次采樣均分,較 16 次平均更穩定;其他開源模型截取開源匯報的結果,若沒有則測試 64 次取均分。

  • 模型倉庫:https://huggingface.co/qihoo360/Light-R1-32B
  • 項目地址:https://github.com/Qihoo360/Light-R1

低成本從零超越,領域專精

DeepSeek-R1 模型發布以來,盡管許多開源工作試圖在 72B 或更小的模型上復現長思維鏈的 DeepSeek-R1 的性能,但至今還沒有在 AIME24 等高難度數學競賽中達到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績。

360 智腦開源的 Light-R1-32B 實現了突破,從沒有長思維鏈的 Qwen2.5-32B-Instruct 開始訓練,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均顯著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的這套從零訓練的方案,按 H800 租用價格估算,訓練成本僅需 1000 美元左右。僅使用了 7 萬條數學數據,通過兩階段的課程學習 SFT 接著 DPO,即可超過 DeepSeek-R1-Distill-Qwen-32B,12 臺 H800 機器的訓練時長僅需 6 小時以內(約 4+0.5+0.5 小時)。

雖然僅使用數學數據訓練了模型的長思維鏈能力,但在 GPQA Diamond 任務上的優秀結果,讓我們相信 Light-R1 的訓練方案的泛化性及有效性。相比于內部目前正在研發的強化學習路線,Light-R1 的課程學習 SFT+DPO 對整個訓練流程更輕便,成本也更友好。隨著訓練和推理技術的不斷發展,未來長思維鏈模型將更加普及,Light-R1 正為低成本快速訓練一個領域專精推理模型提供了重要參考。

全量開源,簡單易用

Light-R1 開源首日即開源全量訓練和評測資產:

  • Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;
  • 課程學習 SFT+DPO 數據集:兩階段課程學習 SFT 和 DPO 的全部數據;
  • 360-LLaMA-Factory 訓練框架:在長思維鏈數據 Post-Training(尤其是 DPO)上解鎖序列并行;
  • 完整評測代碼和結果:基于 DeepScaleR 的評測工具,Light-R1-32B 的原始采樣結果也在 Huggingface 模型目錄下。

Fully open at Day 1,確保可信度和可復現性。360 智腦也正在探索強化學習續訓,未來性能有望進一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了個別特殊 token。使用 Light-R1-32B 模型時,因其長思維鏈能力目前僅通過數學數據訓練,故并不會對所有用戶輸入輸出長思維鏈。參照 DeepSeek 的推理建議,我們在聊天模板中硬編碼了 < think> token 強制其思考。建議使用較新版本的 vLLM 或 SGLang 進行推理。

課程 SFT+DPO,穩步提升

數據準備

訓練用的數學題來自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多個開源的數學數據集,并對 AIME、MATH、GPQA 等基準測試的數據泄露去除了污染的題目。

數學題的答案抓取了 DeepSeek-R1 的結果并經過驗證過濾。同時使用 DeepScaleR-1.5B-Preview 進行采樣根據回答正確率估算題目的難度分級。

圖片

課程學習 SFT+DPO

基于 Qwen2.5-32B-Instruct,依次進行 Post-Training:

  • SFT 階段 1:根據驗證結果和難度分級初篩,得到 7 萬條數據進行 SFT;
  • SFT 階段 2:在 SFT 階段 1 之后,篩選出難度最大的 3 千條數據,進行 SFT;
  • DPO 階段:在 SFT 階段 2 之后,在 3 千條數據上多次采樣 Light-R1-SFT 階段 2 的回答,根據驗證結果和 DeepSeek-R1 的回答構建 DPO pair 對,進行 DPO,使用 DPO 原始 loss 或 NCA loss。

模型融合

最終,智腦團隊將 SFT 階段 2、DPO 和另一個 DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 團隊的 mergekit 工具,得到 Light-R1-32B。這兩個 DPO 版本在訓練數據和超參上略有不同。

整個訓練流程中,每一步的提升都在前文的表格中體現。在完全沒訓練的科學類題目評測 GPQA 上,數學專項訓練導致了部分遺忘,但 Light-R1-32B 也體現了較強的泛化性。

數據去重,助力開源生態

基準測試分數既有其重要性,也有局限性。雖然預訓練階段的個別基準測試污染難以完全避免,但在后訓練階段,應當嚴格杜絕數據污染,在訓練集中對測試數據嚴格去重。360 智腦在研發過程中發現,雖然開源數據集對 AIME 都沒有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通過 N-gram 或純字母匹配檢測,可以發現原題或僅更改數字的計算題。針對這種情況,Light-R1-32B 在訓練過程中做了嚴格去重。

圖片

在開源社區中,Light-R1-32B 是首個從零訓練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個開源數據,使用開源框架 360-LLaMA-Factory 訓練,使用開源項目 DeepScaleR 和 verl 評測。360 希望通過 Light-R1-32B 和上周開源的 TinyR1 等工作助力開源生態發展,加速中國 AI。

注:本文 “從零” 表示從沒有長思維鏈的模型開始訓練

圖片

團隊成員:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-03 14:17:27

2025-07-30 09:06:02

2025-04-21 08:42:00

模型開源AI

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-04-23 15:23:25

AI模型代碼

2025-02-11 08:35:30

2025-11-19 08:56:42

2025-02-20 15:32:28

2025-02-17 09:33:00

AI算法模型

2025-09-08 09:06:16

2025-02-07 13:10:06

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-03-12 13:55:05

2025-07-08 08:53:00

2025-03-05 10:21:04

DeepSeekLVLM

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-03-13 11:07:30

點贊
收藏

51CTO技術棧公眾號

亚洲欧美视频一区二区| 亚州一区二区| 国产精品美女www爽爽爽| 日韩中文一区二区三区| 亚洲色图插插| 国产精品丝袜高跟| 欧洲亚洲一区二区三区| 精品视频9999| 电影一区电影二区| 亚洲乱码av中文一区二区| 成人免费在线观看| 色哟哟精品一区| 天堂а√在线8种子蜜桃视频| 亚洲精品自拍动漫在线| 亚洲国产高清av| 久久免费午夜影院| 成人毛片视频网站| 91老师片黄在线观看| 久久国产精品网| 91亚洲永久精品| 毛葺葺老太做受视频| 国产精品国产三级国产aⅴ入口| 在线看的黄色网址| 成人免费在线视频| 白浆爆出在线观看| 亚洲一区二区中文在线| 神马久久影视大全| 精品国产电影一区| 亚洲欧美日本免费| 欧美日韩小视频| 久久电影网站| 亚洲男人的天堂网站| 3d欧美精品动漫xxxx无尽| 少妇久久久久久| swag国产精品一区二区| 深夜福利免费在线观看| 亚洲国产二区| 午夜精品123| 国产熟人av一二三区| 国产69精品一区二区亚洲孕妇| 99er在线视频| 国产精品素人视频| 欧美日韩伦理片| 精品少妇一区二区三区免费观看| 成人爽a毛片免费啪啪| 欧美成人sm免费视频| 精品国产一区二区三区四区| 国产精品v欧美精品v日韩| 毛片一区二区三区| 国产视频在线视频| 一区二区三区高清| 国产秀色在线www免费观看| 国产视频欧美视频| 视频一区中文字幕精品| 91精品国产自产在线老师啪| 亚洲欧美日韩专区| 浮妇高潮喷白浆视频| 亚洲一区视频在线观看视频| 国产在线观看a| 久久精品国产精品亚洲| 国产伦一区二区三区| 欧美成人在线免费观看| 久久综合五月天婷婷伊人| 一卡二卡三卡亚洲| 亚洲天堂av高清| 亚欧日韩另类中文欧美| 国产一区二区三区视频免费| 久久99国内| 亚洲自拍三区| 亚洲国产欧美在线| 欧洲av一区二区| 成人91免费视频| 少妇一晚三次一区二区三区| 性欧美69xoxoxoxo| 91久久精品一区| 波多野结衣一区二区三区免费视频| 久久久久久免费精品| 久久精品青草| 亚洲欧美另类自拍| 精品无吗乱吗av国产爱色| 91成人看片片| 国产香蕉视频在线观看| 久久精品日产第一区二区三区高清版 | 美腿丝袜亚洲三区| 免费在线黄网站| 91成人免费在线| 美女羞羞视频在线观看| 亚洲综合色噜噜狠狠| xx欧美视频| 91福利入口| 国产亚洲福利社区一区| 第一福利在线视频| 国产精品国产三级国产专区53| 国产肉丝袜一区二区| 精品众筹模特私拍视频| 国产精品区一区二区三含羞草| 中文字幕一区日韩精品欧美| 男女羞羞在线观看| 亚洲一区二区三区在线免费观看| 欧美激情一区二区三区蜜桃视频 | 成人久久久精品乱码一区二区三区 | 每日更新在线观看av| 午夜精品久久久久久久99热| 国产aⅴ综合色| 色yeye免费人成网站在线观看| 国产精品久久久一区| 国产午夜三级一区二区三| 成人在线爆射| 亚洲精品一区二| 日韩午夜激情电影| 精品成人久久| 91xxx在线观看| 97se亚洲综合在线| 亚洲.国产.中文慕字在线| 亚洲第一福利社区| 男男视频在线观看网站| 午夜免费日韩视频| 国产精品五月天| 成人在线视频中文字幕| 中文字幕在线导航| 欧美激情精品在线| 91小视频免费看| 青草综合视频| 欧美 丝袜 自拍 制服 另类| 亚洲精品之草原avav久久| 蜜臂av日日欢夜夜爽一区| 久久99亚洲网美利坚合众国| 视频一区国产精品| 日韩国产精品一区| 国产福利一区在线| 日韩免费大片| 男操女免费网站| 欧美专区第一页| 亚洲尤物在线视频观看| 欧美激情电影| 瑟瑟视频在线| 亚洲三区四区| 在线一区二区日韩| 久久日韩粉嫩一区二区三区| 日韩三级网址| 黄色激情网站| 91精品天堂| 日韩欧美亚洲另类制服综合在线| 美女视频黄久久| 日韩三级一区| 久久国产情侣| 国产一级精品aaaaa看| 亚洲电影影音先锋| 91麻豆国产福利在线观看宅福利| 成人日韩在线电影| 欧美精品日韩精品| 日本一区二区免费高清| 杨幂毛片午夜性生毛片| 国a精品视频大全| 欧美国产在线观看| 精品自拍偷拍| 国产女主播在线| 日韩中文字幕在线免费观看| 国产精品videosex极品| 日韩欧美黄色大片| 尤物九九久久国产精品的特点| 国产a视频精品免费观看| 亚洲精品第一| 免费在线观看av片| 亚洲国产精品一区二区第一页| 91色琪琪电影亚洲精品久久| 波霸ol色综合久久| 狠狠色噜噜狠狠狠狠97| 亚洲清纯自拍| 午夜av一区| 亚洲精品一区二区三区蜜桃久| 蜜臀av性久久久久蜜臀aⅴ流畅 | 亚洲偷熟乱区亚洲香蕉av| 国产精品乱人伦| 精品一区二区三区免费| 999久久久国产精品| 精品在线91| 乱中年女人伦av一区二区| 中文字幕系列一区| 高清视频在线观看三级| 日本美女一区| 欧美亚洲国产日韩| 国产精品极品国产中出| 欧亚一区二区| 网红女主播少妇精品视频| 忘忧草在线www成人影院| 51亚洲精品| 澳门成人av| 久久99青青| 久久精品电影| 国产精品中文欧美| 国产精品福利一区二区三区| 亚洲国产人成综合网站| 色婷婷久久久亚洲一区二区三区| 色综合久久99| 国产一区二区三区视频免费| 色噜噜亚洲精品中文字幕| 欧美最猛性xxxxx免费| 国产精品久久久久高潮| 热久久这里只有精品|