国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

不到140塊!李飛飛團(tuán)隊(duì)超低成本復(fù)刻DeepSeek R1推理!16張H100只訓(xùn)練了26分鐘,與R1訓(xùn)練方法不同! 原創(chuàng)

發(fā)布于 2025-2-6 18:36
瀏覽
0收藏

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

太魔鬼了!上周李飛飛團(tuán)隊(duì)發(fā)了篇新論文,再次降低了復(fù)刻o1能力的成本。

低到什么程度呢?論文里說(shuō),在現(xiàn)成的預(yù)訓(xùn)練模型(用的是阿里系開(kāi)源的Qwen2.5- 32B-Instruct)進(jìn)行監(jiān)督微調(diào)(SFT),使用構(gòu)建的小規(guī)模數(shù)據(jù)集,僅耗時(shí)26分鐘,就在16張 H100 GPU上完成訓(xùn)練。

據(jù)研究人員介紹,這樣的算力租賃成本大約在20美元左右!

不到140塊!李飛飛團(tuán)隊(duì)超低成本復(fù)刻DeepSeek R1推理!16張H100只訓(xùn)練了26分鐘,與R1訓(xùn)練方法不同!-AI.x社區(qū)圖片

這么省時(shí)省錢(qián)的模型,居然和o1預(yù)覽版性能掰手腕:實(shí)驗(yàn)結(jié)果顯示,在數(shù)學(xué)競(jìng)賽類問(wèn)題上,s1-32B的表現(xiàn)超過(guò)o1-preview多達(dá)27%(MATH 和 AIME24 數(shù)據(jù)集)。

李飛飛團(tuán)隊(duì)的訓(xùn)練成果已經(jīng)開(kāi)源了:https: //github.com/simplescaling/s1. 

此外,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一種技巧,被稱為預(yù)算控制(budget forcing)策略,即調(diào)整測(cè)試時(shí)計(jì)算資源。這個(gè)方法的具體做法是強(qiáng)制終止模型的推理過(guò)程,或在模型嘗試結(jié)束生成時(shí)多次附加“Wait”,從而延長(zhǎng)其思考時(shí)間。這一方法能促使模型自我檢查答案,往往可以糾正錯(cuò)誤的推理步驟。

論文中用了經(jīng)典的數(shù)R問(wèn)題做例子,在模型差點(diǎn)要得出錯(cuò)誤答案“2”時(shí)。研究人員打斷了AI的思考,并在其生成內(nèi)容后追加“Wait”,從而促使 s1-32B 自我修正了答案。像極了家長(zhǎng)檢查作業(yè)的樣子。

不到140塊!李飛飛團(tuán)隊(duì)超低成本復(fù)刻DeepSeek R1推理!16張H100只訓(xùn)練了26分鐘,與R1訓(xùn)練方法不同!-AI.x社區(qū)圖片

1.蒸餾:站在大模型巨人的肩膀上

李飛飛團(tuán)隊(duì)的s1可以說(shuō)是Qwen2.5和Gemini 2.0 Flash Thinking Experimental的孩子。(在谷歌今天更新的Gemini 2.0全家桶中,Gemini 2.0 Flash的推理能力已經(jīng)正式上線,摘掉了“Experimental”的帽子,并擴(kuò)展到谷歌地圖、搜索等應(yīng)用中。)

阿里旗下通義千問(wèn)(Qwen)的開(kāi)源小模型,提供了s1的基座。而Gemini 2.0 Flash則是s1在推理方面的“老師”。

研究人員通過(guò)精心篩選的1000個(gè)問(wèn)題及其答案,記錄了Gemini 2.0 Flash Thinking Experimental的“思考過(guò)程”數(shù)據(jù),構(gòu)建了訓(xùn)練集。然后使用這一數(shù)據(jù)集對(duì)Qwen2.5- 32B-Instruct進(jìn)行了微調(diào)。

有意思的是,這事也違反了谷歌的條款。Gemini的使用條款禁止用戶對(duì)其模型進(jìn)行逆向工程,以開(kāi)發(fā)與Google AI產(chǎn)品競(jìng)爭(zhēng)的服務(wù)。對(duì)此,Google尚未發(fā)表評(píng)論。

2.監(jiān)督微調(diào),比R1的“大規(guī)模強(qiáng)化學(xué)習(xí)”更省錢(qián)

在論文中,研究人員提到s1希望找到實(shí)現(xiàn)強(qiáng)推理能力和“測(cè)試時(shí)擴(kuò)展”(即讓AI在回答問(wèn)題前思考更久)的最簡(jiǎn)單方法。

OpenAI的o1模型在推理方面的突破,引發(fā)了DeepSeek等AI實(shí)驗(yàn)室嘗試通過(guò)不同技術(shù)加以復(fù)現(xiàn)。

論文指出,推理模型可以通過(guò)“監(jiān)督微調(diào)”(SFT)蒸餾而成,這種方法讓AI模型明確模仿數(shù)據(jù)集中某些行為。SFT的成本通常低于DeepSeek用于訓(xùn)練其R1模型的“大規(guī)模強(qiáng)化學(xué)習(xí)”方法。

因?yàn)镾FT 使用了高質(zhì)量的標(biāo)注數(shù)據(jù),例如,論文中提到的 s1K 數(shù)據(jù)集,僅包含 1,000 個(gè)樣本,但這些樣本是經(jīng)過(guò)精心篩選的,具有高難度、多樣性和質(zhì)量。

而純RL 方法通常需要大量的交互數(shù)據(jù),例如,DeepSeek R1 使用了數(shù)百萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練,這些樣本的生成需要大量的計(jì)算資源和時(shí)間。

此外,相對(duì)于DeepSeek V3作為R1的底座,s1使用了更小的模型做微調(diào)。研究人員所采用的 Qwen2.5-32B-Instruct 模型進(jìn)行 SFT,僅需調(diào)整少量的超參數(shù)即可獲得較好的性能。由于初始的預(yù)訓(xùn)練模型復(fù)雜度較低,能更好地在有限的計(jì)算資源下進(jìn)行訓(xùn)練和部署。

3.寫(xiě)在最后

李飛飛團(tuán)隊(duì)的復(fù)刻再次給人帶來(lái)億些震撼。

半個(gè)小時(shí),20美元的投入,就能比肩OpenAI等美AI公司數(shù)百萬(wàn)美元所完成的成果。

學(xué)界的研究人員無(wú)需投入百萬(wàn)美元資金也能在AI領(lǐng)域取得創(chuàng)新突破,這無(wú)疑令人興奮。但是,推理模型的“商品化”還有未來(lái)嗎?

如果有人能用少量資金復(fù)制一個(gè)價(jià)值數(shù)百萬(wàn)美元的AI模型,企業(yè)的護(hù)城河還能在哪里?

但是,蒸餾只是一種廉價(jià)復(fù)現(xiàn)AI能力的有效方法,并不能創(chuàng)造出遠(yuǎn)超當(dāng)前水平的全新AI模型。因此,我們可能仍然需要志向遠(yuǎn)大的夢(mèng)想家,需要AI中的巨人。

參考鏈接:https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-2-6 18:37:31修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    久久97久久97精品免视看秋霞| 日本a口亚洲| 91免费小视频| 亚洲bt天天射| 天堂久久午夜av| 色先锋久久av资源部| 国产高清av在线播放| 日韩久久视频| 欧美成人剧情片在线观看| 国产黄大片在线观看画质优化| 国模吧一区二区| 丝袜美腿av在线| 午夜激情一区二区三区| 国产91在线免费| 日产欧产美韩系列久久99| 国产精品女主播| 精品久久国产一区| 日韩成人性视频| 在线观看完整版免费| 亚洲一区二区三区免费视频| 老太脱裤让老头玩ⅹxxxx| ga∨成人网| 成人av免费在线| 爽爽爽爽爽爽爽成人免费观看| 欧美日韩综合另类| 国产三级视频| 亚洲女色av| 高潮按摩久久久久久av免费| 在线精品一区| 成人免费av在线| 69国产精品成人在线播放| 九色精品91| 在线国产亚洲欧美| 婷婷丁香激情网| 国产成人精品亚洲日本在线桃色| 粉嫩精品一区二区三区在线观看| 国产一区二区三区不卡视频网站| 久久久久久久久久久成人| 一级欧美视频| 在线观看国产精品91| 波多野结衣视频一区二区| 日韩一级黄色大片| 久久亚洲资源| 欧美成人一区二区三区在线观看| 国产cdts系列另类在线观看| 国产超碰在线| 国产毛片精品视频| 女同性恋一区二区| 国产乱一区二区| 国产资源在线免费观看| 99久久久久免费精品国产| 日本福利视频一区| 久久毛片高清国产| 日本 片 成人 在线| 亚洲欧美电影一区二区| 三级免费网站| 亚洲成人一二三| 久草福利在线视频| 欧美色综合久久| www免费在线观看| 亚洲女人天堂成人av在线| 日本成人福利| 韩国福利视频一区| 欧美电影免费播放| 国产日本欧美在线观看| 亚洲影视一区| 日本精品国语自产拍在线观看| 欧美bbbbb| 老太脱裤让老头玩ⅹxxxx| 中文字幕制服丝袜一区二区三区| 最新精品视频在线| 91麻豆精品国产自产在线观看一区 | 免费一级网站| 91官网在线观看| 免费在线观看的电影网站| xvideos成人免费中文版| 黄色欧美在线| 国产精品有限公司| 懂色av中文字幕一区二区三区| xx欧美撒尿嘘撒尿xx| 色婷婷亚洲综合| 天堂av在线网| 国产成人鲁鲁免费视频a| 日韩亚洲国产精品| 黄色一级片播放| 午夜私人影院久久久久| 欧美v亚洲v| 97婷婷涩涩精品一区| 韩国在线一区| 久久九九国产视频| 欧美精品自拍偷拍| 波多野结衣欧美| 免费日韩av电影| 国产精品视频一二三| 91亚洲欧美| 欧美精品在线网站| 国产精品久久久久久久免费软件| 自拍日韩亚洲一区在线| 在线免费精品视频| 亚洲图片小说区| 免费在线成人av电影| 自拍偷自拍亚洲精品播放| bestiality新另类大全| 日本韩国欧美精品大片卡二| 国产又黄又大久久| 日本亚洲欧美| 欧美美最猛性xxxxxx| 亚洲视频播放| 国产免费视频| 中文字幕国产精品久久| 国语对白精品一区二区| 五月婷婷丁香综合网| 91精品国产色综合久久ai换脸| 超碰97久久| 欧美大片免费播放| 51精品秘密在线观看| japanese国产精品| 日本精品一区二区三区四区| 日韩午夜三级在线| 日韩久久综合| 日本在线一二三区| 亚洲性无码av在线| 美女网站久久| 男人的天堂在线| 亲爱的老师9免费观看全集电视剧| 国精品**一区二区三区在线蜜桃| 毛片免费在线观看| 国产午夜精品福利| 欧美日韩成人一区二区三区 | 美日韩精品免费观看视频| 久久国产日韩| 日韩在线免费播放| 高清一区二区三区四区五区| 国产精品一区在线| 手机av免费在线| 国产精品视频500部| 亚洲自拍偷拍av| 乱亲女h秽乱长久久久| 免费看一级大黄情大片| 亚洲美女av电影| 美女精品自拍一二三四| 成人日韩欧美| 狠狠干一区二区| 欧美性xxxxxx少妇| 欧美精品18| 日本不卡视频一区二区| 国产在线久久久| 亚洲一二三四久久| 第一sis亚洲原创| 日本女优北野望在线电影| 欧美国产视频一区二区| 成人看片黄a免费看在线| 欧美电影网址| 国产日本欧美在线| 精品视频久久久久久久| 国产一区二区三区香蕉| 巨茎人妖videos另类| 9l视频自拍9l视频自拍| 亚洲免费小视频| 高清国产一区二区| 国产亚洲久久| 麻豆av免费在线| 91豆花精品一区| 亚洲综合在线视频| 99久久夜色精品国产亚洲96 | 97国产一区二区精品久久呦 | 国产精品久久久久白浆| 欧美一区二区影院| 一区二区三区不卡在线观看| 久久av网址| 在线观看老湿视频福利| 成人激情视频在线观看| 欧美日韩亚洲综合在线 | 日本一区二区在线| 亚洲激情视频网| 国产一区二区调教| xxxxx.日韩| jizzzz日本| 91久久嫩草影院一区二区| 欧美高清性hdvideosex| 久久超碰97中文字幕| 色综合视频一区二区三区日韩| 男女污污的视频| 成人精品视频在线| 欧美一级淫片007| 国产成人av网站| 亚洲aaa级| 在线免费看a| 国产 欧美 日本| 欧美在线一级va免费观看| 欧美中文字幕不卡| 国产在线国偷精品产拍免费yy| 国产电影一区二区| 午夜影院在线免费观看| 欧洲一区二区日韩在线视频观看免费| 亚洲深夜福利在线| 悠悠色在线精品| 蜜桃视频第一区免费观看| 久久夜色电影| 日本性爱视频在线观看|