国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

李飛飛+50美元+蒸餾 S1=? DeepSeekR1 精華

發(fā)布于 2025-2-11 13:37

瀏覽

0收藏

最近DeepseekR1大火，標(biāo)題黨紛紛湊熱鬧，s1真的有這么牛嗎？

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

下面，我們來解讀一下S1

S1用了不到50美元，訓(xùn)練出了媲美Deepseek的原因

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

微調(diào)樣本量小，所需訓(xùn)練資源少：

構(gòu)造微調(diào)樣本時，精心挑選了1000個問題，通過Gemini Thinking Experimental中提取這些問題的推理軌跡和答案。

實驗中發(fā)現(xiàn)，隨機(jī)選擇、選擇具有最長推理軌跡的樣本或僅選擇最大多樣性的樣本，都會導(dǎo)致性能顯著下降。

因此，使用59K個示例的完整數(shù)據(jù)池（s1K的超集）進(jìn)行訓(xùn)練，并沒有比選擇的1K樣本帶來顯著的提升。

用1K數(shù)據(jù)對現(xiàn)成的預(yù)訓(xùn)練模型進(jìn)行監(jiān)督微調(diào) (SFT)，在小型數(shù)據(jù)集上僅需在16個H100 GPU上進(jìn)行26分鐘的訓(xùn)練。

并且不是從0開始訓(xùn)練一個大模型，當(dāng)然訓(xùn)練所需花的錢，不到50美元。

這給了我們的啟示是：在領(lǐng)域微調(diào)時，精心挑選1000條左右的問答數(shù)據(jù)就完全足夠了。

訓(xùn)練后，使用預(yù)算強(qiáng)制（Budget forcing）策略來控制模型測試時的計算量：

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

通過強(qiáng)制終止模型的思考過程或在模型試圖結(jié)束時多次附加“等待”來延長其生成過程。
強(qiáng)制終止：如果模型生成的思考符元數(shù)量超過預(yù)設(shè)限制，通過附加一個思考結(jié)束分隔符（end-of-thinking token delimiter），作為結(jié)束標(biāo)記來強(qiáng)制結(jié)束思考過程，并且過渡到生成答案。
延長思考：如果我們希望模型在一個問題上花費(fèi)更多測試時計算量，我們抑制思考結(jié)束分隔符的生成，而是將“等待”（Wait）字符附加到模型當(dāng)前的推理軌跡中，以鼓勵更多探索。

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

訓(xùn)練樣本的選擇方法介紹

訓(xùn)練樣本的篩選，需要根據(jù)質(zhì)量（Quality）、難度（Difficulty）和多樣性（Diversity）三個標(biāo)準(zhǔn)篩選來篩選

質(zhì)量篩選：通過人工檢查樣本，排除格式錯誤或質(zhì)量低下的數(shù)據(jù)；
難度篩選：利用兩個預(yù)訓(xùn)練模型（Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct）評估問題的難度，選擇模型無法正確解答的問題；
多樣性篩選：根據(jù)數(shù)學(xué)主題分類系統(tǒng)（MSC）對問題進(jìn)行分類，從每個領(lǐng)域中選擇具有較長推理鏈的問題，以確保覆蓋不同類型的推理任務(wù)。

本文轉(zhuǎn)載自??CourseAI??，作者： CourseAI ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

李飛飛、Yann LeCun vs Hinton、Ilya Sutskever

Syrupup ? 5529瀏覽 ? 0回復(fù)
李飛飛刊文：大模型技術(shù)無法?通向AGI

Syrupup ? 4562瀏覽 ? 0回復(fù)
OpenAI今年虧損已達(dá)50億美元！看一下收支財務(wù)數(shù)據(jù)

51CTO技術(shù)棧 ? 3350瀏覽 ? 0回復(fù)
Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型

sbf_2000 ? 3693瀏覽 ? 0回復(fù)
AI教母李飛飛：用溫暖的人性之光，照亮AI的未來之路

InfonityAI智推星 ? 4496瀏覽 ? 0回復(fù)
李飛飛的“空間魔術(shù)”：一張圖生成可探索的3D世界

云原生AI百寶箱 ? 5706瀏覽 ? 0回復(fù)
李飛飛：通過「空間智能」重構(gòu)世界

AIGC前沿技術(shù)追蹤 ? 6232瀏覽 ? 0回復(fù)
DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對標(biāo)o1、蒸餾小模型本地部署

老蛀蟲 ? 5473瀏覽 ? 0回復(fù)
李飛飛團(tuán)隊超低成本復(fù)刻DeepSeek R1推理！16張H100只訓(xùn)練了26分鐘，與R1訓(xùn)練方法不同！

51CTO技術(shù)棧 ? 4219瀏覽 ? 0回復(fù)
只需50美元！最簡單的推理擴(kuò)展方案，效果媲美o1！

NLP前沿1 ? 3041瀏覽 ? 0回復(fù)
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 3573瀏覽 ? 0回復(fù)
綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論

amei2000go ? 4805瀏覽 ? 0回復(fù)
滿血DeepSeek-R1免費(fèi)用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 4774瀏覽 ? 0回復(fù)
S1：簡單高效的測試時推理能力擴(kuò)展方法

上堵吟1 ? 4089瀏覽 ? 0回復(fù)
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

sbf_2000 ? 3125瀏覽 ? 0回復(fù)
剛剛，智譜發(fā)布秒殺DeepSeekR1的“沉思”，基座模型Z1吐字速度高達(dá)200token/s，價格只有R1的1/30，下月開源

51CTO技術(shù)棧 ? 3739瀏覽 ? 0回復(fù)
李飛飛團(tuán)隊發(fā)布首個世界生成基準(zhǔn)WorldScore：曝出世界生成三大致命傷

angel ? 4318瀏覽 ? 0回復(fù)
微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50%

Aceryt ? 8622瀏覽 ? 0回復(fù)
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 2546瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Anthropic全新方案：破解AI Agent "罷工、斷片"難題 8天前發(fā)布
傳統(tǒng)Agent工具已死！看如何編排1000+工具！ 8天前發(fā)布

熱門推薦

字節(jié)跳動發(fā)布Vidi2，視頻理解能力超越Gemini3 pro 0回復(fù)

告別官方限制！我是如何使用Claude+CodeX協(xié)同工作流“榨干”Claude和CodeX的價值 0回復(fù)

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

剛剛！黑森林實驗室發(fā)布FLUX.2，開源AI圖像生成的「核彈級」突破！吊打Midjourney，本地可部署。 0回復(fù)

Palantir 創(chuàng)始工程師深度分享：FDE 模式是 Agent 時代的 PMF 新范式 0回復(fù)

上一篇：炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事

下一篇： 9.6K Star防翻車指南：Instructor讓AI輸出錯誤率歸零！

社區(qū)精華內(nèi)容

目錄

成人av午夜电影| 国产精品免费免费| 欧美激情国产日韩精品一区18| 在线免费毛片| 高清久久久久久| 国产精品二区三区四区| 久久99国产精品久久99| 亚洲看片网站| 精品国内亚洲2022精品成人| 91精品欧美一区二区三区综合在| 国产精彩免费视频| 蜜臀av国产精品久久久久| 国产欧美亚洲精品| 日韩电影免费观看高清完整版在线观看| 欧美色窝79yyyycom| 亚洲四虎av| 久久99精品久久久久久国产越南 | 日韩中文字幕视频网| 精品国产乱码久久久久久图片| 99久热re在线精彩视频| 久久亚洲一区二区三区明星换脸 | 亚洲欧美另类小说| 国产成人亚洲精品无码h在线| 久久福利影视| 国产综合色一区二区三区| 成人在线电影在线观看视频| 午夜精品免费视频| 久久久久久久久成人| 亚洲香蕉成视频在线观看| 青草在线视频在线观看| 欧美日韩在线亚洲一区蜜芽| 亚洲国产精品成人一区二区在线| 亚洲特级片在线| 一区二区三区视频在线观看免费| jlzzjlzz亚洲日本少妇| 成人黄色片免费| 国产女人在线观看| 亚洲免费看片| 在线日韩精品视频| 日本乱码一区二区三区不卡| 日韩精品一区二区三区视频| 日本中文在线观看| 在线电影一区二区三区| 在线免费观看黄色av| 91精品蜜臀在线一区尤物| 在线观看免费版| 日韩午夜激情av| 婷婷电影在线观看| www.欧美免费| 色综合一区二区日本韩国亚洲| 亚洲欧美日韩精品久久亚洲区| 中文字幕资源网在线观看免费| 亚洲网址你懂得| 亚洲精品一区二区三区在线| 欧美一区在线直播| 日本一区二区三区视频| 91久久极品少妇xxxxⅹ软件 | 色美美综合视频| 久久电影视频| 欧美一区二区三级| www.精品| 国产做受69高潮| 欧美xxxxx视频| 美日韩精品免费| 精品午夜久久福利影院| 国产aaa免费视频| 中文字幕欧美激情| 在线免费国产| 亚洲成人av片在线观看| 亚洲伊人精品酒店| 97超级碰碰碰| 黄色成人91| av在线免费观看国产| 中文字幕亚洲一区二区va在线| 亚洲色图都市激情| 久久精品夜色噜噜亚洲aⅴ| 思热99re视热频这里只精品| 在线观看国产视频一二三| 97欧美精品一区二区三区| 国产裸体歌舞团一区二区| 8848hh四虎| 亚洲美女又黄又爽在线观看| 日韩精品一区二区三区丰满| 我不卡手机影院| 综合国产在线观看| 综合亚洲视频| 在线看片你懂得| 亚洲欧洲日韩综合二区| 91高清视频免费观看| 欧美日韩午夜视频在线观看| 成人激情电影在线| 人人干人人视频| 久久露脸国产精品| 久久久精品蜜桃| 91综合视频| 不卡视频一区| 亚洲一区二区三区爽爽爽爽爽| 麻豆国产欧美一区二区三区r| 日本欧美黄色片| 日韩av中文字幕在线免费观看| 日韩高清欧美激情| 日韩激情av| 四虎国产成人永久精品免费| xxxx一级片| 久久精品99国产精品酒店日本| 一级女性全黄久久生活片免费| 亚洲最黄网站| 欧美大黑bbbbbbbbb在线| 蜜桃视频成人m3u8| 正义之心1992免费观看全集完整版| 日韩免费一区二区三区在线播放| 国产精品久久久久久久久免费| 91美女在线视频| 黄色av免费在线观看| 国产精品乱子乱xxxx| 欧美大片在线观看一区| 老司机午夜精品视频| 最新97超碰在线| 欧美老肥妇做.爰bbww| 欧美黄色性生活| 91香蕉视频在线下载| 欧美偷拍视频| 91久久精品久久国产性色也91| 91成人在线精品| 91亚洲自偷观看高清| 在线播放evaelfie极品| 99国产盗摄| 久久久亚洲综合| 国产特黄在线| 夜夜躁日日躁狠狠久久88av| gogo大胆日本视频一区| 国产美女情趣调教h一区二区| 91aaaa| 韩国久久久久| 一区二区成人国产精品| 91精品国产aⅴ一区二区| 成人写真视频| 黄页网站免费在线观看| 成人免费观看a| 欧美一区二区三区系列电影| 欧美精品乱码久久久久久 | 亚洲成人精品影院| 亚洲影院在线观看| 三级欧美韩日大片在线看| 人人鲁人人莫人人爱精品| 午夜伦理福利在线| av在线官网| 日本在线播放| 国产精品一区二区av影院萌芽| 色播在线观看| 国产精品视频午夜| 亚洲成人综合视频| 亚洲精选一区| 试看120秒一区二区三区| 霍思燕三级露全乳照| 97久久久免费福利网址| 国产精品久久久久久久久粉嫩av| 国产精品美女久久久久av福利| 日本一区二区三区视频免费看| 亚洲精品欧美二区三区中文字幕| 成人激情开心网| 国产风韵犹存在线视精品| 一区二区三区日韩精品视频| 欧美视频中文字幕| 成人免费视频caoporn| 久久蜜桃av一区二区天堂| 亚洲欧洲制服丝袜| 337p亚洲精品色噜噜| 欧美成人久久久| 国产欧美日韩视频| 久久青草精品视频免费观看| 精品日本高清在线播放| 国产精品婷婷| 最新国产精品| 国产精选一区二区三区| 亚洲精品美女在线观看| 成人av免费在线| 亚洲大片精品永久免费| 亚洲第一精品电影| 午夜精品久久久久久99热软件| 国产亚洲福利社区| 成年人黄色片视频| 先锋影音在线资源站91| 国产成人福利av| 国产成人免费视频一区| 综合av第一页| 亚洲四色影视在线观看| 免费精品视频一区二区三区| 亚洲激情啪啪| 欧美黄色免费网址| 国产在线观看黄| 在线观看欧美| 免费久久精品视频| 亚洲日本国产| 亚洲成人资源在线| 欧美国产激情18| 9色视频在线观看| 黄色美女视频在线观看| 99精品国产一区二区青青牛奶| 伊人色综合久久天天五月婷|

<span id="kvikd"><i id="kvikd"></i></span><span id="kvikd"></span>