国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Unsloth:僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1!

發(fā)布于 2025-2-11 13:48
瀏覽
0收藏

隨著 LLM 應(yīng)用的廣泛普及,如何提高模型的推理效率并降低資源消耗成為了技術(shù)發(fā)展中的一大挑戰(zhàn)。Unsloth 通過(guò)引入多個(gè)強(qiáng)化學(xué)習(xí)(RL)算法和最新的量化技術(shù),顯著提高了 LLM 在推理和微調(diào)過(guò)程中的性能,并大幅降低了顯存消耗。

Unsloth:僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1!-AI.x社區(qū)

DeepSeek 的研究人員在用純強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練 R1-Zero 時(shí)觀察到了一個(gè)“靈光一現(xiàn)”的時(shí)刻。模型學(xué)會(huì)了通過(guò)重新評(píng)估最初的思路來(lái)延長(zhǎng)思考時(shí)間,而無(wú)需任何人工指導(dǎo)或預(yù)定義指令。

Unsloth 對(duì)整個(gè) GRPO 過(guò)程進(jìn)行了增強(qiáng),使其比 Hugging Face + FA2 減少了 80% 的顯存使用。這意味著我們可以使用 7GB 顯存,通過(guò)Qwen2.5(1.5B)復(fù)現(xiàn)了 R1-Zero “靈光一現(xiàn)”的時(shí)刻。

主要細(xì)節(jié)  

使用15GB顯存,Unsloth 允許我們將任何最多 15B 參數(shù)的模型(如Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)或 Qwen2.5(7B))轉(zhuǎn)變?yōu)橥评砟P汀?/p>

最低要求:僅需 7GB 顯存即可在本地訓(xùn)練自己的推理模型。

Tiny-Zero 的團(tuán)隊(duì)展示了如何用 Qwen2.5(1.5B)復(fù)現(xiàn) R1-Zero “靈光一現(xiàn)”的時(shí)刻——但之前需要2個(gè)A100 GPU(160GB顯存)。而現(xiàn)在,通過(guò) Unsloth,我們只需一個(gè) 7GB 顯存的 GPU 即可實(shí)現(xiàn)同樣的效果。

請(qǐng)注意,這不是對(duì) DeepSeek 的 R1 精煉模型進(jìn)行微調(diào),也不是使用 R1 的精煉數(shù)據(jù)進(jìn)行微調(diào),而是通過(guò) GRPO 將標(biāo)準(zhǔn)模型轉(zhuǎn)換為一個(gè)完整的推理模型。

這種魔法可以通過(guò) GRPO 重新創(chuàng)建,GRPO 是一種強(qiáng)化學(xué)習(xí)(RL)算法,能夠高效優(yōu)化響應(yīng),而不需要值函數(shù),這與依賴值函數(shù)的近端策略優(yōu)化(PPO)不同。在我們的筆記本中,我們使用 GRPO 訓(xùn)練一個(gè)模型,旨在使其自主開發(fā)自我驗(yàn)證和搜索能力——?jiǎng)?chuàng)造一個(gè)迷你“靈光一現(xiàn)”時(shí)刻。

工作原理:

  1. 模型生成一組響應(yīng)。
  2. 每個(gè)響應(yīng)根據(jù)正確性或由某個(gè)獎(jiǎng)勵(lì)函數(shù)創(chuàng)建的其他度量標(biāo)準(zhǔn)進(jìn)行評(píng)分,而不是使用 LLM 獎(jiǎng)勵(lì)模型。
  3. 計(jì)算該組的平均得分。
  4. 將每個(gè)響應(yīng)的得分與該組平均得分進(jìn)行比較。
  5. 強(qiáng)化模型,使其傾向于選擇得分更高的響應(yīng)。

例如,假設(shè)我們希望模型解決以下問(wèn)題:

1+1 等于多少? >> 思考鏈/推理過(guò)程 >> 答案是2。

2+2 等于多少?>> 思考鏈/推理過(guò)程 >> 答案是4。

最初,必須收集大量數(shù)據(jù)來(lái)填充推理過(guò)程。但 GRPO(DeepSeek 使用的算法)或其他 RL 算法可以引導(dǎo)模型自動(dòng)展示推理能力并生成推理痕跡。相反,我們需要?jiǎng)?chuàng)建良好的獎(jiǎng)勵(lì)函數(shù)或驗(yàn)證器。例如,如果答案正確,就給它打 1 分;如果有拼寫錯(cuò)誤,扣 0.1 分,依此類推!我們可以提供許多獎(jiǎng)勵(lì)過(guò)程的函數(shù)。

GRPO 在 Unsloth 中的應(yīng)用  

如果你在本地使用 GRPO 與 Unsloth,請(qǐng)確保“pip install diffusers”,因?yàn)樗且粋€(gè)依賴項(xiàng)。

等待至少 300 步才能看到獎(jiǎng)勵(lì)的實(shí)際增長(zhǎng),請(qǐng)使用最新版本的 vLLM。為了獲得良好的結(jié)果,你需要訓(xùn)練至少 12 小時(shí)(這就是 GRPO 的工作方式),但請(qǐng)記住,這不是強(qiáng)制性的,你可以隨時(shí)停止。

建議將 GRPO 應(yīng)用于至少 1.5B 參數(shù)的模型,以便正確生成思考 token,因?yàn)檩^小的模型可能無(wú)法做到。如果你使用的是基礎(chǔ)模型,請(qǐng)確保擁有聊天模板。GRPO 的訓(xùn)練損失追蹤功能現(xiàn)在已直接內(nèi)置于 Unsloth 中,無(wú)需像 wandb 等外部工具。

Unsloth:僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1!-AI.x社區(qū)

除了增加 GRPO 支持外,Unsloth 隨后還支持了在線 DPO、PPO 和 RLOO!請(qǐng)查看下圖,比較 Unsloth 的在線 DPO 顯存消耗與標(biāo)準(zhǔn) Hugging Face + FA2 的差異。

Unsloth:僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1!-AI.x社區(qū)

Unsloth x vLLM  

20 倍吞吐量,節(jié)省 50% 顯存。

現(xiàn)在,你可以直接在微調(diào)堆棧中使用 vLLM,這大大提高了吞吐量,并且允許你在同一時(shí)間進(jìn)行微調(diào)和推理!在 1x A100 40GB 顯卡上,使用 Unsloth 的動(dòng)態(tài) 4bit 量化的 Llama 3.2 3B Instruct,預(yù)期吞吐量約為 4000 tokens/s。在 16GB 的Tesla T4(免費(fèi) Colab GPU)上,你可以獲得約 300 tokens/s 的吞吐量。

Unsloth 去除了加載 vLLM 和 Unsloth 時(shí)的雙倍內(nèi)存使用,從而節(jié)省了約 5GB 的顯存(對(duì)于 Llama 3.1 8B)和 3GB 的顯存(對(duì)于 Llama 3.2 3B)。原本,Unsloth 可以在 1x 48GB GPU 上微調(diào) Llama 3.3 70B Instruct,其中 Llama 3.3 70B 的權(quán)重占用了 40GB 的顯存。如果不去除雙倍內(nèi)存使用,當(dāng)加載 Unsloth 和 vLLM 一起使用時(shí),我們將需要至少 80GB 的顯存。

但是使用 Unsloth,我們?nèi)匀豢梢栽诓坏?48GB 顯存的情況下,同時(shí)享受微調(diào)和快速推理的好處!要使用快速推理,首先安裝 vllm,并通過(guò) fast_inference 實(shí)例化 Unsloth:

# pip install unsloth vllm
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Llama-3.2-3B-Instruct",
    fast_inference = True,
)
model.fast_generate(["Hello!"])

什么是 GRPO?  

GRPO(Group Relative Policy Optimization,群體相對(duì)策略優(yōu)化)是一種強(qiáng)化學(xué)習(xí)(RL)算法,旨在優(yōu)化模型的響應(yīng)質(zhì)量,而不依賴傳統(tǒng)的值函數(shù)。這種算法通過(guò)一種群體相對(duì)優(yōu)化方法,對(duì)模型的每個(gè)生成的響應(yīng)進(jìn)行評(píng)分,并根據(jù)這些評(píng)分來(lái)引導(dǎo)模型的學(xué)習(xí)過(guò)程。

具體來(lái)說(shuō),GRPO 算法的主要特點(diǎn)如下:

  1. 無(wú)值函數(shù):與依賴值函數(shù)的強(qiáng)化學(xué)習(xí)算法(如PPO)不同,GRPO 不使用值函數(shù)來(lái)評(píng)估狀態(tài)或行為的質(zhì)量,而是通過(guò)對(duì)模型輸出的響應(yīng)進(jìn)行評(píng)分,并基于這些評(píng)分來(lái)優(yōu)化模型。
  2. 響應(yīng)評(píng)分與群體平均:在 GRPO 中,模型生成一組可能的響應(yīng),每個(gè)響應(yīng)都會(huì)根據(jù)正確性或其他預(yù)定義的獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)分。然后,計(jì)算這些響應(yīng)的平均得分,并將每個(gè)響應(yīng)的得分與群體平均得分進(jìn)行比較。模型會(huì)得到強(qiáng)化,傾向于生成得分較高的響應(yīng)。
  3. 自我優(yōu)化:GRPO 能夠幫助模型自主地進(jìn)行推理和自我驗(yàn)證。例如,模型可以在沒(méi)有人工干預(yù)的情況下,通過(guò)不斷調(diào)整思維過(guò)程來(lái)提高推理結(jié)果的準(zhǔn)確性。
  4. 適用于多種任務(wù):GRPO 不僅可以用于常見的分類任務(wù),也可以應(yīng)用于更復(fù)雜的任務(wù),如生成具有自我驗(yàn)證和推理能力的模型(例如,解答問(wèn)題時(shí)展示推理過(guò)程)。

總的來(lái)說(shuō),GRPO通過(guò)強(qiáng)化學(xué)習(xí)的方式,不僅優(yōu)化模型的回答,還能改善其推理過(guò)程,使模型在沒(méi)有人工反饋的情況下,能夠不斷自我改進(jìn),從而在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出更強(qiáng)的推理能力。

本文轉(zhuǎn)載自 ??PyTorch研習(xí)社??,作者: 南七無(wú)名式

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
337p日本欧洲亚洲大胆精品| 国产一区玩具在线观看| xxx欧美精品| 97在线精品国自产拍中文| 欧美日韩一区二区视频在线观看| 亚洲成色www.777999| 高清视频在线观看三级| 成人拍拍拍在线观看| 777视频在线| 蘑菇福利视频一区播放| 欧美老少配视频| 国产剧情在线| 色屁屁www国产馆在线观看| 免费日韩在线观看| 欧美激情影院| 色婷婷国产精品| 国产精品888| 国产日本欧美一区二区三区在线| 成人免费影院| 成人国产在线激情| 久久精品66| 国产真实精品久久二三区| 国产精品第一页在线| 欧美色播在线播放| 精品在线小视频| 91禁外国网站| 91产国在线观看动作片喷水| 精品国产综合| 在线观看高清免费视频| 男人的天堂免费在线视频| 尤物网精品视频| 蜜臀久久99精品久久久久久9| 国产一区999| 日韩欧美极品在线观看| 亚洲欧洲在线播放| 国产精品一区久久久| 日韩.欧美.亚洲| 亚洲aaa激情| 国产又粗又爽又黄的视频| 黄色片视频在线免费观看| 超碰在线视屏| 大型av综合网站| 一本综合精品| 亚洲高清不卡在线| 亚洲精品一区二区三区在线观看| 91高清视频在线免费观看| 韩国一区二区三区美女美女秀 | 欧美激情第三页| 男同互操gay射视频在线看| 日韩a**中文字幕| 国产精品综合视频| 久久91精品国产| 欧洲av一区二区| 亚洲精品一区二区三区福利| 北岛玲一区二区三区| 欧美日韩三级在线| 麻豆av在线导航| 91精品福利视频| 日韩二区三区| 欧美性69xxxx肥| 四虎影视精品成人| 一本色道久久综合狠狠躁的推荐| 色偷偷福利视频| 亚洲综合成人在线| 在线手机福利影院| 欧美日韩三区| 九色综合日本| 国模 一区 二区 三区| 欧美二区在线看| 久久综合狠狠| 97伦理在线四区| 1024成人| 日本视频精品一区| 国产成人a级片| 国产美女无遮挡网站| 国v精品久久久网| 天堂8在线天堂资源bt| 国产高清不卡二三区| 日本xxxxxxx免费视频| 久久蜜桃香蕉精品一区二区三区| 美女av电影| 午夜精品久久久久久久久久 | 91成人精品网站| 国产欧美三级电影| 欧美亚洲日本黄色| 99视频精品全国免费| 99久久免费国| 国产精品一二一区| 免费在线激情视频| 黑人极品videos精品欧美裸| 性欧美猛交videos| 久久久久成人网| 激情久久五月| 日本成年人网址| 欧美视频在线观看免费网址| 麻豆mv在线看| 国产成人精品a视频一区www| 国产综合视频| 草草视频在线免费观看| 中文字幕在线不卡一区二区三区| 精品无人乱码| 日韩欧美国产一区二区三区| 日本高清不卡一区二区三区视频| 欧美一区二区.| 午夜在线a亚洲v天堂网2018| 熟女人妇 成熟妇女系列视频| 婷婷综合另类小说色区| 九色porny视频在线观看| 久久艳片www.17c.com| 先锋影音资源999| 欧美日韩成人在线| 欧美一区 二区 三区| 成人写真视频福利网| 日韩电影在线免费看| 国产 日韩 欧美在线| 夜夜嗨av一区二区三区中文字幕| 好了av在线| 国产成人综合精品| 日本在线观看不卡视频| 黄色三级电影网| 51午夜精品国产| 果冻天美麻豆一区二区国产| 精品欧美国产| 亚洲精品亚洲人成人网| 午夜欧美巨大性欧美巨大| 国产免费成人av| 99re视频精品| 丝袜中文在线| 国产成人涩涩涩视频在线观看| 激情国产一区| 可播放的18gay1069| 噜噜噜91成人网| 高清国语自产在线观看| 日韩免费视频线观看| 婷婷亚洲五月| 国产成人精品视频免费看| 在线一区二区三区做爰视频网站| 国产成人免费av一区二区午夜| 国产欧美日韩综合一区在线观看 | 蜜桃传媒一区二区| 国产精品欧美精品| 蜜桃成人365av| 亚洲影院色在线观看免费| 91麻豆免费观看| 中文在线а√天堂| 国产日本欧美一区二区三区| 国产极品久久久久久久久波多结野| 伊人网站在线| 亚洲一区二区三区精品中文字幕| 亚洲一区中文字幕| 婷婷激情成人| 久久久久久99| 久久久777精品电影网影网 | 欧美老女人性开放| 欧美区在线播放| 成人短视频下载| 羞羞电影在线观看www| 豆国产97在线| 亚洲午夜电影网| 大陆精大陆国产国语精品 | 免费毛片aaaaaa| 成人动态视频| 欧日韩免费视频| 欧美tickling挠脚心丨vk| 欧美hentaied在线观看| 嫩草影院2018| 久久99国产精品久久久久久久久| 欧美日本一区| www 日韩| 亚洲最大的成人网| 欧美日韩午夜在线| 在线成人超碰| 一本到av在线| 超碰97国产在线| 一区二区三区久久| 成人线上播放| 欧美色老女人| 欧美激情精品久久久久久变态| 久久亚洲综合色一区二区三区| 91天天综合| 毛片在线播放视频| 欧美黄色www| 中文字幕成人网| 不卡日本视频| 中文字幕在线观| 97超碰最新| 7777精品伊人久久久大香线蕉经典版下载 | 9l视频自拍蝌蚪9l视频成人| 久久综合色视频| 中文字幕免费国产精品| 91在线观看下载| 久久视频社区| 日韩欧美亚洲| 国产在线精品一区免费香蕉| 色婷婷精品大在线视频| 欧美精品入口| 激情影院在线观看| 国产九九九九九| 欧美丰满少妇xxxx| 精品久久久久久国产91|