国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型 VS 小模型

發(fā)布于 2024-8-20 10:40
瀏覽
0收藏

首先,我們思考一個問題,為什么 qwen2 基本上是當下最受歡迎的開源模型?說實話,相比于 deepseek、llama、minicpm 這些誠意滿滿的技術(shù)報告,qwen2 的技術(shù)報告稍顯一些“小家子氣”,并沒有提及到關(guān)鍵的技術(shù)細節(jié)。然而,qwen2 提供給開源社區(qū)的“全家桶”套餐,又是多長的技術(shù)報告也比不上的。對 llm 的研究者來說,用相同 tokenizer,相同的 7T pretrain_data 得到的“一簇小 llm”,其研究價值遠遠超過 Qwen2-72B 本身!

知乎: https://zhuanlan.zhihu.com/p/714399961


接下來,我們帶著兩個基本概念進入正文:

  • 同源小模型:同 tokenizer,同訓(xùn)練數(shù)據(jù)下得到的 size 較小的llm
  • 小模型:重點在于“小”,推理快或者本身就是分類模型,怎么訓(xùn)的完全無所謂。較小 size 的 llm,BERT,RoBERTa,Xgboost,LR 等等都可以稱作小模型

同源小模型是大模型的實驗場

scaling law 告訴我們:小模型的性能表現(xiàn)能用來預(yù)測大模型的性能表現(xiàn)。這也就是說,大部分情況下,我們是可以通過在同源小模型上做實驗,去預(yù)測大模型的效果的。

在 pretrain / post_pretrain 階段有很多需要做實驗才能知道答案的問題。怎么樣的數(shù)據(jù)配比最合理,課程學(xué)習(xí)中哪種學(xué)習(xí)順序效果最好,數(shù)據(jù)的質(zhì)量是否過關(guān),數(shù)據(jù)的去重程度是否過關(guān),先訓(xùn)4k、再擴到 32k 和直接訓(xùn) 32k 的效果差異,post_pretrain 的時候怎樣調(diào)整學(xué)習(xí)率和數(shù)據(jù)分布來防止模型斷崖式的能力遺忘?……

直接啟動大模型的成本實在是在太高昂了,可能訓(xùn)練兩三周,loss 曲線才會表現(xiàn)出一點點差異。但我們完全可以在小模型上大膽的訓(xùn),每天訓(xùn) 100B token,兩天就能出一版實驗結(jié)果。觀察 tensorbord 的 loss 曲線,刷 benchmark 打榜,或是做 sft 看效果,總之小模型可以幫助我們快速地敲定 pretrain 階段使用的數(shù)據(jù)配置。

在 alignment 階段,我們也可以去借助小模型和 scaling law 來指導(dǎo)工作。

我要強化模型的某個能力,準備了 N 條訓(xùn)練數(shù)據(jù),能讓模型達到多大的提升呢?可以看看這份數(shù)據(jù)在小模型上能有大提升,繪制一條曲線,去預(yù)估大模型的性能表現(xiàn)。說的再通俗一點,100B token 能讓 0.5B 模型下降 0.2 loss,能讓 72B 模型下降 0.1 loss, alignment 數(shù)據(jù)能讓 0.5B 模型提高 x% 的 task 能力,那么大概率這份數(shù)據(jù)也只能讓 72B 模型提升 0.5x % 的 task 能力。

  • 已知:Qwen2-0.5B + few shot
  • 已知:Qwen2-0.5B + SFT + zero_shot
  • 已知:Qwen2-1.5B + few shot
  • 已知:Qwen2-1.5B + SFT + zero_shot
  • ……
  • 已知:Qwen2-72B + few shot
  • 預(yù)測:Qwen2-72B + SFT + zero_shot

但其實,在 alignment 階段,小模型的實驗指導(dǎo)意義并不是特別強,畢竟小模型的最大優(yōu)勢在于訓(xùn)得快,做實驗快。由于 alignment 的數(shù)據(jù)量不大,我們往往可以直接對目標大模型進行訓(xùn)練來驗證結(jié)果。這里的指導(dǎo)意義,往往是在我們需要大量數(shù)據(jù)去強化模型某個能力時才顯得有意義,比如代碼強化、創(chuàng)作能力增強。

在這里,額外需要強調(diào)兩個點:

  • 小模型需要使用較大的學(xué)習(xí)率,而大模型學(xué)習(xí)能力強、特征空間稀疏,往往需要使用較小的學(xué)習(xí)率;
  • 強如 meta,據(jù)說也訓(xùn)崩了千億級別參數(shù)的 MOE 模型。換句話說,MOE 的 scaling law 可能還不成熟,或者是 MOE 缺少一個像 llama 一樣的能穩(wěn)定訓(xùn)練的標準結(jié)構(gòu),其在小模型上的優(yōu)異表現(xiàn)可能無法復(fù)現(xiàn)在大模型上。

大模型是同源小模型的良師

首先,大模型的效果就是同源小模型不可達到的 ceiling,這點毋庸置疑。(實際工作中,知道模型效果的上限,是一件非常有意義的事情)。

除此之外,大模型可以在訓(xùn)練中給到同源小模型極大的幫助。

模型蒸餾

“distill”是 BERT 時代非常火的一個技術(shù)方案,現(xiàn)在卻提及的不太多了,歸根到底就是蒸餾對“同源 tokenizer”的要求太硬了。不過同源小模型沒有這個顧慮,蒸餾技術(shù)就像是為同源小模型的效果強化量身定制的技術(shù)方案一樣。

先澄清一個概念,目前的大部分論文都把“利用 GPT4 造數(shù)據(jù),喂給小模型去訓(xùn)練“叫做蒸餾,這種叫法也沒錯,不過更準確的叫法應(yīng)該是”知識蒸餾“:讓小模型去學(xué)習(xí)大模型的知識能力。而傳統(tǒng)的“模型蒸餾”,指的是我們不再讓模型學(xué)習(xí) hard-label,而是 soft-label:

  • hard_label:“臺灣屬于”,在預(yù)測下一個 token 的時候,“中國”的概率是 1,其他所有 token 的概率是 0;
  • soft_label:“臺灣屬于”,在預(yù)測下一個 token 的時候,“中國”的概率是 0.3,“中華”的概率是 0.2,“大陸”的概率是 0.1……

不管從哪個角度考慮,似乎 soft_label 都是蘊含更多信息量可學(xué)習(xí)的。因此,利用大模型去“模型蒸餾”小模型,很有可能能得到一個能力遠高于同等 size 的小模型,Google 的 Gemma 小模型 就應(yīng)用了這項技術(shù)方案。

(模型蒸餾之所以在 llm 方向做的少,其實還是因為得不償失,其對算力和存儲的需求較大,與模型的效果提升不成正比。畢竟正常訓(xùn)練學(xué)的是 seq_len 個 one_hot label,蒸餾學(xué)的是 seq_len * vocab_size 的 logits,一個比較現(xiàn)實的方案是做 clip,只取最大的 N 個 token logits 標簽進行學(xué)習(xí),其他 token 的概率依然視為 0)

reward_model

用大模型來充當小模型的 reward_model,目前是一個很流行的做法,而用同源大模型去做 reward_model 則更是一個錦上添花的方案。

與蒸餾不同,蒸餾看中的是兩個模型“tokenizer 同源”,reward_model 看中的則是兩個模型“pretrain 數(shù)據(jù)同源”。也就是說,我們的 reward_model 和 policy_model 具有同等的知識量,兩個模型的學(xué)習(xí)成績雖然不一樣,但它們上過的的課程卻是一樣的。reward_model 會的知識,就是 policy_model 學(xué)過的知識:“我學(xué)過并且我掌握了,你學(xué)過但你沒掌握,所以我給你打低分就是合理的。”

雖然在實際工作中,一個同源 reward_model 可能沒有 GPT4 這種“天才 reward_model ”帶來的效果更好。但其往往能給出更公允的打分,進而避免過多的幻覺產(chǎn)生。這也是 alignment 的一大痛點,模型到底是訓(xùn)過擬合了才答錯這個知識,還是壓根就沒學(xué)過這個知識 —— 交給同源大模型來判斷。

大模型背后的無數(shù)小模型

OK,同源模型的意義我們就談到這里,后面我們開始談?wù)嬲摹靶 蹦P停?strong>一個優(yōu)秀的大模型,無論是在訓(xùn)練階段,還是線上部署階段,其背后默默付出的小模型都數(shù)不勝數(shù)。

數(shù)據(jù)質(zhì)量分類器:llama3 和 qwen2 都提到了,他們的 pretrain 訓(xùn)練數(shù)據(jù)是有得分的,然后通過閾值來找出最高質(zhì)量的訓(xùn)練數(shù)據(jù),開源 pretrain 數(shù)據(jù)集 fineweb 也提到了他們給數(shù)據(jù)打分的工作。Good data makes good model performance!李沐大佬在他的視頻里說到,llama3 的數(shù)據(jù)打分器是 RoBERTa,這很合理,效果又好、推理又快的分類模型確實還要看 BERT 家族。

數(shù)據(jù) domain 分類器:垂直領(lǐng)域模型的 post_pretrain 工作,往往需要非常精準的數(shù)據(jù)配比,domain 數(shù)據(jù)的數(shù)據(jù)質(zhì)量也需要非常優(yōu)質(zhì)。這也就是說,我們需要一個分類器,去提取海量數(shù)據(jù)中的 domain 數(shù)據(jù),這個分類器最好還能把低質(zhì)量的 domain 數(shù)據(jù)也視為非 domain 數(shù)據(jù),通常承擔這個工作的模型也是 BERT 家族。

線上模型的分類器:眾所周知,RAG 模塊已經(jīng)是 llm 的標配,我們總不能讓模型自己判斷該不該做檢索吧?雖然不是不行,但是額外生成“是否RAG”這些 token 會降低系統(tǒng)的響應(yīng)速度,并且可能降低模型的通用能力(模型學(xué)的越多,忘的也越多)。因此,線上模型往往都是前置掛一個小模型,來判別是否需要 RAG,同理也需要判別是否觸發(fā) safety,是否觸發(fā)工具鏈等。

RAG 模型:這個模型更是重量級,也就是咱們傳統(tǒng)的信息檢索模型,如何從海量 docs 里面選出最相關(guān)的 doc。BGE 是這個工作較為常用的模型。

數(shù)據(jù)生產(chǎn)模型:

  • “小模型 + SFT > GPT4 + zero_shot ”幾乎是數(shù)據(jù)生產(chǎn)階段最常用的公式了。我們在數(shù)據(jù)生產(chǎn)階段往往面臨幾個困境,GPT4 并不是百分之百按照我們指定的格式進行輸出(復(fù)雜指令任務(wù)尤為明顯),GPT4 真的很貴,特別是在生產(chǎn)多輪對話數(shù)據(jù)的時候。這種情況下,最好的方案就是用一個小模型去學(xué)目標 task 的高精數(shù)據(jù),讓這個小模型過擬合,進而變成一個標準的 task 數(shù)據(jù)生產(chǎn)器;
  • 以 role_play 任務(wù)為例,很多場景是需要人不斷和 GPT4 聊天來生產(chǎn)高質(zhì)量的對話數(shù)據(jù)的,我們的模型做不到 GPT4 那樣能準確拿捏角色性格的程度,但扮演一個“多事兒的用戶”還是綽綽有余的。訓(xùn)一個聊天模型,讓它和 GPT4 聊天來自動化大量生產(chǎn)數(shù)據(jù)。

這里,我再分享一些個人使用小模型時的 trick:

學(xué)會變通,生成模型也可以當判別模型使用。簡單來說,如果我們懶得去找一份 BERT 代碼去訓(xùn)一個分類器,我們也可以直接訓(xùn)一個 Qwen2-0.5B,讓它只會輸出 0 和 1,當我們的模型完全過擬合到 0 和 1 的時候,那么所有 token 中便只有 0 和 1 有概率,其他 token 的概率幾乎為零。此時,我們用 1 所對應(yīng)的 token_probability,不就是分類器的打分嗎?當然,更優(yōu)雅的做法是把 pretrain_model 的 lm_head 替換成 reward_model 的 lm_head。

另外,一個優(yōu)秀的大模型,無論是在訓(xùn)練階段,還是線上部署階段,其背后默默付出的小模型都數(shù)不勝數(shù)。。這句話怎么說呢,是我在訓(xùn) domain 分類器的時候,發(fā)現(xiàn) Qwen2-1.5B 的準確率和召回率都不如 Qwen2-0.5B 高。在一番討論和實驗分析之后,我認可了大佬同事的觀點:模型越大,其學(xué)習(xí)能力越強,但也意味著其更容易過擬合。

傳統(tǒng)機器學(xué)習(xí)模型做的事情都是特征抽取,去從輸入的特征中提取出看不到的特征,像 xgboost 這種還會計算每個特征的重要程度。但由于 llm 的參數(shù)量足夠大,再加上 decoder_only 的結(jié)構(gòu),它真的可以做到記住所有的輸入特征(decoder_only 是一個純信息檢索結(jié)構(gòu),它不壓縮任何 token 信息,和 BERT 的 CLS 位壓縮信息完全是兩種做法)。

因此,較大的模型雖然上限更高,但其所依賴的數(shù)據(jù)質(zhì)量也更高,如果你的訓(xùn)練數(shù)據(jù)是有失偏頗的,分布不均衡的,它完全可以記住這些數(shù)據(jù)的 pattern,而不是從這些 pattern 中抽取共同特征。我的 0.5B 模型效果好于 1.5B 模型大概率就是這種情況:我使用了 4 個數(shù)據(jù)源作為訓(xùn)練集,但測試集來自于 10 個數(shù)據(jù)源。

寫在最后

誠然,大模型的出現(xiàn),解決了困擾 nlp 多年的指代消解、多輪理解、對話人設(shè)等瓶頸,但小模型的信息壓縮、特征抽取等依然是非常有意義的。我們在工作中,還是應(yīng)該多考慮一下能不能用小模型來解決問題,找找我們的老朋友 BERT,而不是二話不說就打開 GPT4 寫 prompt。

本文轉(zhuǎn)載自??NLP工作站??,作者: ybq ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产精品国产三级国产aⅴ入口| 五月天天在线| 麻豆影视在线| 国产传媒久久文化传媒| 国产精品亚洲网站| 性欧美freesex顶级少妇| 精品久久久久久久久国产字幕 | 日韩亚洲欧美在线| 国产va在线| 成人午夜精品在线| 亚洲欧美精品在线观看| 国内精品亚洲| 国产精品久久久亚洲| 欧美videos粗暴| 日韩精品视频在线播放| 尤物视频在线免费观看| 亚洲第一搞黄网站| 五月天电影免费在线观看一区| 盗摄精品av一区二区三区| 国新精品乱码一区二区三区18| 国产一区三区在线播放| 久久久久久999| 91精品麻豆| 中文字幕欧美精品日韩中文字幕| 爱看av在线| 欧美剧情片在线观看| 国产在线三区| 日韩欧中文字幕| 午夜国产视频| 洋洋成人永久网站入口| 高清hd写真福利在线播放| 国产精品视频九色porn| 九九视频精品在线观看| 91丨porny丨首页| 啊啊啊一区二区| 93久久精品日日躁夜夜躁欧美| 国产成人在线小视频| 国产自产2019最新不卡| 久久精品在线免费视频| 国产成人综合精品三级| 国产日韩欧美精品在线观看| 国产精品18久久久久久久网站| 亚洲午夜精品久久久中文影院av | 久久久99精品免费观看不卡| 日本黄网站色大片免费观看| 精品在线你懂的| 精品无码av无码免费专区| 久久精品国产秦先生| 亚洲成人a**址| 九色porny丨国产精品| 综合视频免费看| 丁香天五香天堂综合| 日韩av在线综合| 亚洲激情av在线| 蜜桃免费在线| 日韩欧美国产三级电影视频| 亚洲人成在线网站| 欧美大片免费看| 国产精品调教| 91精品免费视频| 久久资源在线| 成人在线免费高清视频| 久久精品亚洲一区二区三区浴池| 男人插女人欧美| 精品久久久久久国产91| 欧美大片高清| 国产精品99久久久久久人 | 95精品视频| 欧美国产高跟鞋裸体秀xxxhd| 色婷婷久久久| 欧美久久在线| 老司机精品视频一区二区三区| 亚洲free性xxxx护士hd| 国产精品永久| 男女视频网站在线观看| 亚洲视频免费在线| 69久久久久| 在线看欧美日韩| 欧美精品系列| 夜夜爽www精品| 亚洲色图.com| v天堂福利视频在线观看| zzijzzij亚洲日本成熟少妇| 日韩在线不卡| 中国老女人av| 亚洲日本一区二区| 直接在线观看的三级网址| 久久久精品视频成人| 欧美在线资源| 播放灌醉水嫩大学生国内精品| 欧美日韩人人澡狠狠躁视频| 成人小电影网站| 国产精品久久久久久久久久尿| 日韩高清欧美激情| av天在线播放| 亚洲男人天堂2019| 国产精品成人av| 欧美国产日韩激情| 日本道免费精品一区二区三区| 素人啪啪色综合| 国产无套精品一区二区| 久久精品亚洲一区二区三区浴池| 免费av网站在线看| 欧美与欧洲交xxxx免费观看| 美腿丝袜亚洲一区| 先锋av资源在线| 九九九久久久久久| 日韩国产欧美在线播放| 毛片网站大全| 最近中文字幕2019免费| 亚洲欧美日韩视频二区| 草莓污污视频在线观看| 久久精品国产视频| 视频一区中文字幕| 涩爱av在线播放一区二区| 欧美第一淫aaasss性| 久久99久久99小草精品免视看| 在线观看国产麻豆| 国产69精品久久久久99| 国产二区国产一区在线观看| 免费超碰在线| 亚洲一区免费网站| 亚洲欧洲www| 伊人久久大香线蕉综合影院首页| 日韩欧美手机在线| 日本精品视频一区二区| 妖精一区二区三区精品视频| 成年人午夜视频在线观看| 精品噜噜噜噜久久久久久久久试看 | 日本加勒比高清在线| 中文字幕九色91在线| 日本sm残虐另类| 国产福利电影在线| 国产精品久久久久久久久借妻| 91蜜桃网址入口| 涩涩视频网站在线观看| 精品久久久久久一区| 激情成人在线视频| 国产成人短视频在线观看| 黄色一级二级三级| 在线观看日韩视频| 国产suv精品一区二区三区| √天堂8在线网| 久久av二区| 欧美亚男人的天堂| 久久久久久久久丰满| 伊人资源视频在线| 日韩av手机在线观看| 亚洲色图.com| 国产剧情一区| ga∨成人网| 亚洲va电影大全| 欧美性xxxxx极品娇小| 99久久久久国产精品| 亚洲1024| 99热99热| 欧美日韩一本到| 久热精品在线| 中文字幕在线免费观看视频| 亚洲精品一区二区三区樱花| 精品久久久久久无| 精品亚洲porn| 欧美亚洲人成在线| 日本熟妇人妻中出| 欧美综合一区第一页| 一区二区三区日韩欧美精品 | 亚洲精品国产综合久久| 久久精品久久精品| sese综合| 欧美日韩亚洲第一| 久久欧美在线电影| 亚洲aⅴ怡春院| 国产欧美日韩一级| 91福利在线免费| 日本www在线播放| 国产国语刺激对白av不卡| 日韩欧美国产激情| 亚洲欧美日韩综合国产aⅴ| av不卡高清| 国产又黄又猛视频| 日韩免费av在线| 久久大综合网| 亚洲一区二区三区四区中文字幕| 欧美色综合影院| 欧美色xxxx| 欧美精品视频www在线观看| 国产在线一区二区三区播放| 欧美日韩欧美一区二区| 日欧美一区二区| 另类一区二区| 日韩加勒比系列| 国产伦精品一区二区三区视频黑人 | 久久婷婷久久一区二区三区| 91免费看国产| 欧美视频一二三区| 国精产品一区一区三区mba桃花| 高清欧美日韩| 三级黄色网址| 日韩欧美亚洲v片| 欧美精品激情视频|