国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

超低成本復現QwQ!數學推理模型訓練迎來RL暴擊,數據代碼模型全開源 | 螞蟻&清華出品

人工智能 新聞
螞蟻清華聯手開源的強化學習框架AReaL-boba,直接把推理模型訓練帶到了Next Level——

用上這個開源框架,2天時間就能刷新7B數學推理紀錄!

螞蟻清華聯手開源的強化學習框架AReaL-boba,直接把推理模型訓練帶到了Next Level——

訓練成本下降的同時,訓練速率、推理能力還大幅提升的那種。

圖片

除了前面提到的7B模型,在32B模型上,只需兩百美元、200條數據,就可以輕松復現QwQ-32B,就是數學推理能力媲美DeepSeek-R1,一戰封神的那個。

而且開源的內容非常全面,不僅只是模型,所有訓練代碼,數據,模型參數以及訓練細節都通通開源了,還有超級詳細的技術筆記可以看,感覺像是被技術團隊手把手教導。

一個技術小白也能手搓一個頂尖大模型了。

AReaL-boba,人人可復現QwQ

AReaL,Ant Reasoning RL,是Ant Research RL Lab等開源的高效強化學習系統。在此基礎之上,該版本取名為boba,是因為團隊希望AReaL像珍珠奶茶一樣讓強化學習普惠整個社區,讓開發者無論資源規模均可觸達SOTA效果。

通過開源全部代碼、數據與模型參數,AReaL-boba在訓練效率、推理能力與成本控制上實現三重突破。

首先是訓練效率上的提升,全面集成SGLang推理框架。

AReaL-boba是首個擁抱SGLang的開源訓練系統,大幅優化訓練吞吐性能。

(SGLang是一個xAI公司采用的面向復雜語言模型的高性能推理框架,它通過共同設計后端運行時和前端語言,讓模型交互更快、更可控。市面上主流模型和企業都已大規模部署,每天產生數萬億個token)

對比原始版本,在1.5B模型尺寸上吞吐提升35%,7B模型提升60%,32B模型提升73%。

圖片

而且無縫適配各種計算資源,既支持單機,也支持大規模分布式訓練,突破傳統RL訓練資源瓶頸。

大規模分布式訓練效率上有顯著的提升,一個直觀的例子:

128卡集群1天完成1.5B模型訓練,256卡2天完成7B模型訓練。

這樣一來,中小團隊也能在有限算力下快速迭代模型,真正實現”人人可駕馭強化學習”。

其次,推理能力大幅提升,尤其7B模型性能斷層領先。

當前最考驗推理模型能力的,無疑是它在數學推理領域的表現。

在這一領域中,AReaL-boba基于Qwen-R1-Distill-7B模型,通過大規模強化學習訓練,僅用2天即實現SOTA水平——

AIME 2024 61.9分,AIME 2025 48.3分,相比于o1-preview也是大幅領先。

圖片

相較于基礎模型Qwen-R1-Distill-7B,使用AReaL-boba后模型推理能力也有不少提升——

分別在AIME2024、AIME2025提升6.9、8.6分。

而想要擁有這樣一個SOTA級別的推理模型并不難,團隊不僅把能開源的都開源了,還有超級詳細的技術筆記送上。

團隊不僅開源了推理模型,也開源了所有所有訓練數據AReaL-boba-106k,以及全部的訓練腳本和評估腳本,保證人人可以復現。

而過程中遇到問題也不用擔心,在項目官方倉庫上,AReaL 團隊也放出了極其詳細的技術筆記,總結了大量訓練中的關鍵點,包括 PPO 超參數、獎勵函數設置、正則化設置、長度上限設置等等。

刷新小模型推理上限的同時,也通過技術透明化推動創新生態。

像我這樣一個技術小白,研究一下也能手搓個小模型出來。

最后,使用創新性蒸餾技術,極簡數據復現頂尖模型。

前段時間,QwQ-32B橫空出世,其強大的推理性能引發諸多關注。

它在數學推理、編碼能力和一般問題解決能力上,超過了一眾領先模型,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。

圖片

現在AReaL-boba推出超精簡訓練方案,直接把32B大模型訓練的所需成本給打下來。

數據上面,僅需200條數據的AReaL-boba-200數據集。

使用Qwen-32B-Distill基礎模型,通過輕量級SFT技術即可復現QwQ-32B的AIME2024效果。

整個計算成本,僅需200美元。

這一創新讓頂級推理能力的訓練門檻從“實驗室專享”降為”人人可及”,開創了小數據驅動大模型的新范式。

首個完整開源的團隊

AReaL團隊的核心成員均來自于螞蟻研究院強化學習實驗室以及清華交叉信息研究院吳翼老師團隊。

上個月,他們初始版本針對1.5B和7B推理模型優化,比如借助AReaL使用RL訓練1.5B蒸餾模型,在40小時內超越o1-Preview的數學推理能力。

圖片

同樣也給出了詳細的訓練細節。

圖片

作為國內第一個完整開源(數據、代碼、模型、腳本全開源)的項目團隊,他們表示致力于真正實現AI訓練的普惠。

其實從此次boba版本的發布也能看出,通過開源開放,讓AI訓練成為社區共享的基礎設施。其三大技術突破(極速訓練、推理登頂、低成本復現)形成的技術飛輪,推動強化學習大規模訓練的發展。

在項目列表中,他們也揭示了后續的開源計劃和目標——

包括異步訓練,更快的訓練吞吐,更好的數據集和算法,以及代碼和Agent智能體能力的支持。

也是十分期待了。

實際上,螞蟻的AI研發也非常值得關注,成果SOTA,場景天然,產品還是國民級的。

項目鏈接:

https://github.com/inclusionAI/AReaL

HuggingFace數據模型地址:

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-18 10:54:04

2025-03-18 08:19:01

2025-04-01 09:00:00

模型訓練開源

2025-03-05 00:22:00

2025-03-06 17:29:21

2025-02-25 09:13:16

2024-02-04 07:20:00

AI模型

2025-02-10 09:35:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-08-15 10:30:53

2023-10-11 12:32:53

AI模型

2025-09-15 08:53:00

AI模型推理

2025-06-06 09:10:00

模型開源AI

2025-05-14 08:51:00

2025-10-22 00:00:00

2025-02-24 08:40:00

開源模型訓練

2025-02-10 14:30:00

模型數據開源

2025-05-30 02:00:00

獎勵模型RRMAI

2025-06-11 14:39:50

AILLMMistral

2024-12-03 15:51:45

點贊
收藏

51CTO技術棧公眾號

另类小说视频一区二区| 中文久久电影小说| 国产裸体歌舞团一区二区| 欧美一级电影久久| 国产一二区在线| 蜜桃tv在线播放| a成人v在线| 欧美精品乱码久久久久久按摩 | 国产精品一区二区在线播放 | 国产精品国产亚洲精品看不卡| 最新国产精品精品视频| 欧美日韩国产首页| 丁香婷婷自拍| 亚洲欧美综合久久久| 大胆欧美人体视频| 高清全集视频免费在线| 国产精品国产a| 懂色av粉嫩av蜜臀av| 91视频久久| 日韩在线播放视频| 免费在线国产视频| 欧美日韩激情视频8区| 狠狠爱免费视频| 久久精品一本| 亚洲最大的成人网| 久草在线成人| 欧美国产亚洲精品久久久8v| 国产v日韩v欧美v| 欧美午夜精品理论片a级按摩| 五月婷婷导航| 26uuu亚洲综合色| 国产精品无码乱伦| 欧美精品七区| 国内精品麻豆美女在线播放视频 | 天美av一区二区三区久久| 日韩精品一区二区三区老鸭窝| gogo高清免费视频| 国产精品亚洲成人| 免费一区二区三区| 亚洲欧美综合国产精品一区| 久久99热精品| 3d欧美精品动漫xxxx无尽| 欧美理论电影在线| 日韩av在线中文| 成人听书哪个软件好| 日韩一区二区电影在线观看| 欧美亚洲不卡| 亚洲综合视频1区| 久久网站免费观看| 国产精品尤物福利片在线观看| 久久久久观看| 性欧美暴力猛交69hd| 日韩中文字幕无砖| 欧美另类交人妖| 免费看日本一区二区| 欧美日韩国产高清一区二区三区 | 二区三区四区高清视频在线观看| 国产欧美一区二区精品秋霞影院| 久久99国产精品一区| 亚洲精品字幕| 国产精品亚洲一区| 1024日韩| julia一区二区中文久久94| 欧美私人啪啪vps| 国产伦理一区二区三区| 国产综合精品一区| 久久久久久久久久久久久9999| 欧美在线不卡| 不卡视频一区二区三区| 黄色成人在线网址| 精品视频免费观看| 天堂va蜜桃一区二区三区| 色一情一乱一伦一区二区三区丨 | 日韩一区二区av| 日韩精品第二页| 欧美老肥婆性猛交视频| 色妞ww精品视频7777| 97精品国产97久久久久久| 网友自拍一区| 国产免费观看久久黄| 一本一本久久| 大西瓜av在线| 亚洲亚洲精品在线观看| а√天堂8资源在线官网| 91精品午夜视频| 阿v视频在线观看| 中文字幕久久亚洲| 国产成人aa在线观看网站站| 日本高清久久天堂| 91精品啪在线观看国产18| 久久久久久久久久久久久久久久av| 美女诱惑黄网站一区| 国产欧美自拍视频| 91亚洲国产成人精品一区二三| 午夜免费福利在线| 性久久久久久久| 成人在线视频亚洲| 日韩电影中文字幕av| 日本免费一区二区三区等视频| 久久久97精品| 亚洲三级网址| 日韩精品欧美在线| 久久久亚洲欧洲日产国码αv| 中文字幕一二三区在线观看 | 精品日本视频| 性欧美xxxx交| 欧美精品播放| 中文字幕第50页| 中文字幕在线观看不卡视频| 性欧美孕妇孕交| 亚洲成人黄色网| 老司机在线精品视频| 国产日韩欧美综合精品 | 免费看日本一区二区| 狠狠久久综合婷婷不卡| 成人app下载| 在线观看视频色潮| 精品国产1区二区| 超碰在线亚洲| 精品一区日韩成人| 国产欧美日韩中文久久| 大片免费播放在线视频| 啊v视频在线一区二区三区| 一精品久久久| a在线视频观看| 欧美性欧美巨大黑白大战| 欧美日韩伦理一区二区| 成人黄色激情网| 国产成人精品亚洲午夜麻豆| 嫩草视频在线观看| 亚洲性视频网站| 欧美日韩激情| 99热一区二区三区| 欧美日韩国产中文字幕| 在线日本欧美| 久久99精品久久久久久三级| 国产精品欧美一区二区三区| 国产在线观看a视频| 午夜精品在线观看| 精油按摩中文字幕久久| 色吊丝在线永久观看最新版本| 久久久精品影院| 久久大逼视频| 91在线不卡| 欧美性受xxxx白人性爽| 91在线观看下载| heyzo一区| 91文字幕巨乱亚洲香蕉| 亚洲综合色噜噜狠狠| 涩涩涩久久久成人精品 | 精品国产乱码一区二区三区| 激情久久av| 欧美亚洲高清一区| 精品国精品国产自在久国产应用| 色综合天天色综合| 一区二区三区无码高清视频| 亚洲第一精品影视| 国产三级电影在线观看| 国产欧美久久久久久| 国内精品一区视频| 蜜臀久久99精品久久久酒店新书| 亚洲综合在线小说| 美乳视频一区二区| 亚洲综合成人在线| 4438五月综合| 亚洲国产一二三精品无码| 9191精品国产综合久久久久久| 欧美大人香蕉在线| 国产视频二区| 亚洲精品1234| 国产成人高潮免费观看精品| 2019国产精品| 国产精品18| 免费 成 人 黄 色| 中文国产亚洲喷潮| 韩国一区二区视频| 麻豆免费在线| 亚洲一区二区三区免费看| 欧美一区二区播放| 午夜宅男久久久| 黄色网页在线观看| 免费的av在线| 亚洲一二三在线| 久久天天做天天爱综合色| 国产一区二区视频在线看| 欧美亚洲一二三区| 55夜色66夜色国产精品视频 | 国产精品福利在线观看网址| 成人写真福利网| 狠狠色狠狠色综合日日五| 精品96久久久久久中文字幕无| 黄色av电影在线播放| 老司机av福利| 日韩精品小视频| 一区二区精品免费视频| 国产在线二区| 日韩欧美在线播放视频| 欧美成人性福生活免费看| 99精品国产91久久久久久| 欧美日韩国产高清电影|