国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾

發(fā)布于 2025-11-3 07:24
瀏覽
0收藏

在最近Thinking Machines的新文章(見文末)里指出一種很有用的模型壓縮技術(shù)——在線策略蒸餾(On-Policy Distillation),它通過從高性能“教師”模型的概率分布中轉(zhuǎn)移知識來訓(xùn)練一個小的“學(xué)生”模型。這使得學(xué)生能夠模仿教師的任務(wù)性能,同時顯著減少大小和延遲。它讓小模型在特定領(lǐng)域達(dá)到大模型的表現(xiàn),成本卻只有傳統(tǒng)方法的十分之一。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

但這里有一個知識蒸餾一直存在的痛點:老師和學(xué)生必須用同一套分詞器。這意味著你不能讓 Llama 向 Qwen 學(xué)習(xí),也不能讓 Gemma 向其他模型取經(jīng)。這就好比一個說中文的老師,只能教懂中文的學(xué)生。

Hugging Face 的研究團隊剛剛解決了這個問題。他們提出的 GOLD(General On-Policy Logit Distillation)方法,讓任意兩個模型之間(即使它們來自完全不同的模型家族)都能進行在線知識蒸餾,不管它們用的是什么分詞器。

技術(shù)核心

出現(xiàn)這一問題的根源在于不對齊,比如:同一句話"Hugging Face is awesome!",在不同分詞器下會變成完全不同的 token 序列:

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

Tokenizer A:[3, 1, 2] Tokenizer B:[2, 3, 1, 0] 這種不匹配造成兩個核心問題:序列長度不同,token ID 也不對應(yīng)。之前的方法,如ULD(Universal Logit Distillation)只能簡單截斷到最短長度,丟失信息還容易錯位。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

GOLD 通過三步解決跨分詞器蒸餾:

  1. 增量解碼:同時解碼教師和學(xué)生模型的 token,獲取各自的概率分布
  2. 文本對齊:將相同可見文本的片段分組,識別需要合并的 token 位置
  3. 概率合并:在每組內(nèi)合并相關(guān)概率,通過對數(shù)概率求和保持語義完整性

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

具體來說:

  • 序列對齊:不再簡單截斷到最短長度,而是識別需要合并的 token,通過對數(shù)概率求和來合并語義相關(guān)的片段。這樣"Hugging"和" Face"可以合并成一個完整的概念。
  • 詞匯對齊:先找出兩個分詞器中相同的 token(即使 ID 不同),對這些 token 使用直接映射;對無法匹配的部分,才回退到 ULD 的排序方法。最終損失函數(shù)結(jié)合兩部分:L_GOLD = w1 * L_GKD + w2 * L_ULD

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

這樣即使 token 邊界不同,也能保證在完整輸出上計算損失函數(shù)。

實驗效果

數(shù)學(xué)任務(wù)跨家族蒸餾:用 Qwen 教師模型指導(dǎo) LLaMA 學(xué)生模型,在數(shù)學(xué)任務(wù)上表現(xiàn)良好,甚至超過了 GRPO 方法。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

個性化(領(lǐng)域)蒸餾:先用 SFT 提升模型的代碼能力,然后用蒸餾恢復(fù) IFEval 分?jǐn)?shù)。這驗證了前面提到的"專業(yè)能力與通用能力平衡"問題的解決方案。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

同時需要指出的是,分詞器相似度確實影響效果,但仍然強于強化學(xué)習(xí)。Llama-3.2-1B 與 Qwen3-4B 的相似度 0.64,最終成績 0.42;Gemma-3-1b 相似度只有 0.063,表現(xiàn)相應(yīng)較差。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識蒸餾-AI.x社區(qū)

使用方法

GOLD 已經(jīng)集成到 TRL 庫中,使用相當(dāng)簡單:

from trl.experimental.gold import GOLDConfig, GOLDTrainer

trainer = GOLDTrainer(
    model="meta-llama/Llama-3.2-1B-Instruct",
    teacher_model="Qwen/Qwen2.5-0.5B-Instruct",
    args=GOLDConfig(
        output_dir="gold-model", 
        use_uld_loss=True, 
        teacher_tokenizer_name_or_path="Qwen/Qwen2.5-0.5B-Instruct"
    ),
    train_dataset=train_dataset,
)
trainer.train()

更多:https://huggingface.co/docs/trl/main/en/gold_trainer

想要在自己的場景嘗試在線策略知識蒸餾,官方給出了如下是利用A??ccelerate訓(xùn)練的????(Accelerate是什么?可以閱讀此書:)??配置用例:

  • SFT配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/scripts/sft.py \
  --model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name open-r1/codeforces-cots \
  --dataset_config solutions_decontaminated \
  --bf16 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 32 \
  --learning_rate 1e-5 \
  --num_train_epochs 1 \
  --max_length 16384 \
  --logging_steps 1 \
  --report_to trackio \
  --trackio_project Qwen3-4B-SFT-Codeforces \
  --output_dir data/Qwen3-4B-SFT-Codeforces \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-SFT-Codeforces \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr \
  --use_liger_kernel
  • 蒸餾配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/experimental/gold/gold.py \
  --model_name_or_path <sft-model> \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name allenai/tulu-3-sft-mixture \
  --dataset_train_split train \
  --bf16 \
  --learning_rate 1e-7 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 64 \
  --num_train_epochs 1 \
  --eval_strategy steps \
  --eval_steps 100 \
  --temperature 1.0 \
  --top_p 0.95 \
  --top_k 0 \
  --max_new_tokens 2048 \
  --max_prompt_length 512 \
  --lmbda 0.25 \
  --beta 0.0 \
  --use_uld_loss \
  --use_extended_uld \
  --uld_use_hybrid_loss \
  --uld_crossentropy_weight 0.0 \
  --uld_distillation_weight 1.0 \
  --uld_student_temperature 1.0 \
  --uld_teacher_temperature 1.0 \
  --uld_hybrid_unmatched_weight 1.0 \
  --uld_hybrid_matched_weight 1.0 \
  --teacher_model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --logging_steps 1 \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-GKD-Tulu \
  --report_to trackio \
  --trackio_project Qwen3-4B-GKD-Tulu \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr

小結(jié)

這一突破非常有實用價值。以前你只能在同一家族內(nèi)做知識蒸餾,現(xiàn)在可以跨家族進行。在線策略蒸餾對于需要在資源受限環(huán)境下部署高性能模型的場景特別有用,可以用最好的模型作為教師,采各家所長,訓(xùn)練出適合自己場景的模型。

On-Policy Distillation:https://thinkingmachines.ai/blog/on-policy-distillation/

本文轉(zhuǎn)載自??AI工程化??,作者:ully

已于2025-11-3 07:24:13修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
日本成人在线视频网址| 精品日本美女福利在线观看| 精品国产欧美一区二区三区成人| 国产在线制服美女| 免费在线成人网| 91系列在线播放| 国产三级在线播放| 综合网在线视频| 欧美网站免费观看| 大尺度一区二区| 中文字幕中文字幕一区三区| 国产精品三级| 亚洲3p在线观看| 91精品国产66| 亚洲视频第一页| 都市激情一区| 丁香花在线影院观看在线播放| 久久久女女女女999久久| 亚洲人久久久| www.欧美视频| 久久伊人精品视频| 在线日本中文字幕| 99re热视频精品| 91嫩草国产丨精品入口麻豆| 亚洲尤物在线| 美国av一区二区三区| 国产成人8x视频一区二区 | 1024日韩| 国产欧美一区二区三区在线看| jvid福利在线一区二区| 欧美激情中文字幕乱码免费| 欧美重口另类| 国产伦理久久久| 亚洲少妇诱惑| 午夜啪啪免费视频| 99re在线视频这里只有精品| www.99riav| 激情丁香综合五月| 黄色一级一级片| 久久综合网色—综合色88| 超碰在线中文| 日韩欧美电影在线| 日韩中文字幕视频网| 在线不卡国产精品| 久久国产成人午夜av影院宅| 91免费看网站| 一区二区三区网址| 九九视频免费观看视频精品| 国产欧美日韩精品在线观看| 久久99伊人| 欧美xxxx吸乳| 亚洲一线二线三线久久久| 国产福利小视频在线| 91麻豆精品国产自产在线| 欧美黄页在线免费观看| 国产成人a亚洲精品| 久久成人久久鬼色| 99热热99| 中文字幕一区二区三区电影| 欧美日本免费| www.成人精品免费网站青椒| 久久综合国产精品| 亚洲最大成人在线| 成人a区在线观看| 久草视频这里只有精品| 亚洲另类中文字| 日本在线免费| 国产成人免费av电影| 久久久国产精品不卡| 国产有码在线| 欧美专区国产专区| 久久久久久久综合日本| 欧美大胆的人体xxxx| 国产精品日韩一区二区| 中文字幕在线不卡一区| 国产日韩一区二区三免费高清| 特级黄色录像片| 欧美一二三四区在线| 丝袜美腿亚洲一区二区图片| 亚洲欧美日韩国产yyy| 99国产精品久久久| 永久在线免费观看| 欧美精品一区二区三区很污很色的 | 自拍视频一区| a优女a优女片| 在线黄色国产电影| 日本无删减在线| 日韩在线一区二区三区免费视频| gogo久久日韩裸体艺术| 亚洲欧洲一区二区| 亚洲国产精品久久久久| 激情国产一区| 91久久精品一区二区三区| jazzjazz国产精品久久| 日本精品久久久久久久久久| 精品国产3级a| 国产综合久久久久久久久久久久| 久青青在线观看视频国产| 国产成人免费91av在线| 久久久久久久久久久久久久久99| 超碰国产精品一区二页| cao在线观看| 亚洲午夜色婷婷在线| 日本美女一区二区| 成人片在线看| 精品久久久久久无码中文野结衣| 日韩福利视频在线观看| 久久久久国产成人精品亚洲午夜 | 青青草在线视频免费观看| 国产亚洲精品高潮| 秋霞电影网一区二区| 亚洲福利影院| 国产国产人免费人成免费视频| 成人在线免费观看视视频| 亚洲成人av片| 亚洲高清不卡在线| 91麻豆.com| 秋霞影院一区二区| 西野翔中文久久精品国产| aa在线视频| 欧美成人免费高清视频| 色狠狠久久av五月综合|| 国产成人avxxxxx在线看| 亚洲欧美日韩精品久久| 色综合天天综合网天天看片| av在线不卡免费看| 亚洲欧美日本视频在线观看| 一区二区美女| 精品一区91| 国产欧美 在线欧美| 亚洲国产精品一区二区久| 国产精品免费网站在线观看| 国产亚洲精品v| 亚洲精品小说| 久久97久久97精品免视看秋霞| 黑人巨大国产9丨视频| 国产欧美一区二区视频| 国产成人精品视频| 欧美在线观看网址综合| 日韩精品在线观看一区| 91成人网在线| 91久久精品一区二区| 色网站国产精品| 欧美三级视频在线观看| 欧美在线不卡视频| 亚洲综合一二区| 悠悠色在线精品| 香蕉影视欧美成人| 一区在线播放视频| 黄色录像特级片| 亚洲xxxx2d动漫1| 少妇高潮大叫好爽喷水| 日韩中文一区| 日韩精品手机在线观看| 久久99久久99精品| 中文字幕久精品免| 亚洲精品偷拍视频| 亚洲mv在线看| 成人免费观看毛片| 日韩专区第三页| 天天影视综合色| 91短视频在线观看| 伊人国产在线看一| 99热国产在线| 欧美激情成人动漫| 成人自拍av| 欧美3p在线观看| 欧美日韩调教| www.成人网.com| 一区二区三区91| 亚洲福利视频久久| 亚洲精品一区二区久| 欧美大片免费观看在线观看网站推荐| 人妖精品videosex性欧美| 国产精品高精视频免费| 中文字幕制服丝袜成人av | 亚洲精品国产a久久久久久| 欧美性猛片xxxx免费看久爱| 综合136福利视频在线| 国产精品狼人色视频一区| 国产一级揄自揄精品视频| 久久久久五月天| 欧美在线激情| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 91超碰在线免费观看| 国产一区二区三区在线免费观看| 亚洲国产婷婷香蕉久久久久久| 久久久97精品| 欧美性视频在线播放| 黄页网站在线观看| 国产在线视频欧美一区| 国产视频久久| 欧美日韩国产在线播放| 精品国内二区三区| 91精品国产91久久久久久不卡| www.夜夜爱| 日韩欧国产精品一区综合无码| 蜜桃a∨噜噜一区二区三区| 成人免费视频免费观看| 精品国产一区二区三区不卡|