擴(kuò)散不死,BERT永生!Karpathy凌晨反思:自回歸時(shí)代該終結(jié)了?
Karpathy難以抵擋的誘惑!
蘋(píng)果的前員工、德克薩斯大學(xué)奧斯汀分校(UT Austin)的計(jì)算機(jī)科學(xué)研究生Nathan Barry,得出一個(gè)驚人的結(jié)論:
BERT本質(zhì)上,只是文本擴(kuò)散中的一步!
基于「強(qiáng)化版BERT」RoBERTa,他成功地把表示學(xué)習(xí)算法改造為生成算法:
圖片
看完帖子后,OpenAI創(chuàng)始員工、特斯拉前AI總監(jiān)Karpathy陷入了沉思:
人類(lèi)的思維或許更偏向自回歸一些——一步步推進(jìn)的感覺(jué)。但在我們的思維潛空間里,也很難說(shuō)就不存在某種更像擴(kuò)散的機(jī)制。
說(shuō)不定在這兩者之間,其實(shí)可以繼續(xù)插值、或者更進(jìn)一步泛化。
這部分生成邏輯在LLM架構(gòu)中,依然是一個(gè)相對(duì)「可變」的部分。
不過(guò),Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開(kāi)發(fā)終級(jí)實(shí)踐項(xiàng)目「100美元帶回家的ChatGPT」,所以他只能「忍痛割?lèi)?ài)」:
現(xiàn)在我必須克制住用擴(kuò)散模型訓(xùn)練nanochat的沖動(dòng),不能偏離主線(xiàn)去搞支線(xiàn)任務(wù)了。
圖片
順便提一句,當(dāng)天不久,他又被DeepSeek-OCR挑起了新念頭。
谷歌的遺珠
當(dāng)?shù)谝淮巫x到語(yǔ)言擴(kuò)散模型論文時(shí),Nathan Barry驚訝地發(fā)現(xiàn)它們的訓(xùn)練目標(biāo)只是掩碼語(yǔ)言建模(masked language model,MLM)的一種推廣。
圖片
而自從2018年BERT以來(lái),大家一直早已對(duì)掩碼語(yǔ)言建模習(xí)以為常。
圖片
預(yù)印本:https://arxiv.org/abs/1810.04805
他腦海里立刻冒出一個(gè)想法:我們能不能把類(lèi)似BERT的模型微調(diào)一下,讓它也能做文本生成?
出于好奇,他做了個(gè)快速的驗(yàn)證實(shí)驗(yàn)。隨后,他發(fā)現(xiàn)其實(shí)早就有人做過(guò)了——DiffusionBERT基本就是這個(gè)想法,不過(guò)做得更嚴(yán)謹(jǐn)。
值得一提的是,大約3年前,DiffusionBERT由國(guó)內(nèi)高校的研究者提出,100%國(guó)產(chǎn)!
圖片
預(yù)印本鏈接:https://arxiv.org/abs/2211.15029
最初,擴(kuò)散模型在圖像生成領(lǐng)域一炮而紅。
在圖像生成中,擴(kuò)散模型會(huì)先對(duì)圖像逐步添加高斯噪聲(前向過(guò)程),然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行迭代去噪(反向過(guò)程)。
圖片
將這一思路應(yīng)用于文本領(lǐng)域,意味著我們需要找到方法對(duì)文本添加噪聲并在之后分階段消除。
最簡(jiǎn)單的實(shí)現(xiàn)方式是基于掩碼的噪聲處理流程:
- 在前向過(guò)程中,初始文本未被破壞。在每一步迭代中,根據(jù)預(yù)設(shè)的調(diào)度計(jì)劃(從0%到100%),隨機(jī)將一定比例的詞語(yǔ)替換為特殊的<MASK>標(biāo)記
- 在反向(去噪)過(guò)程中,訓(xùn)練模型根據(jù)每個(gè)<MASK>預(yù)測(cè)正確的原始詞語(yǔ)。這與掩碼語(yǔ)言模型(MLM)類(lèi)似,但采用了動(dòng)態(tài)掩碼率
為了解決以往方法存在的問(wèn)題,BERT提出了掩碼語(yǔ)言建模(Masked LM)。
具體做法是:對(duì)每條訓(xùn)練輸入序列隨機(jī)遮蓋15%的詞語(yǔ),僅對(duì)這些被遮蓋的詞進(jìn)行預(yù)測(cè)。用圖示語(yǔ)言來(lái)表達(dá)就是:
圖片
換句話(huà)說(shuō),BERT的MLM訓(xùn)練目標(biāo),其實(shí)就可以看作是文本擴(kuò)散的一種特例,只不過(guò)它用的是固定的掩碼率。
而只要我們引入一個(gè)從0到1的動(dòng)態(tài)掩碼率范圍,就可以把BERT的訓(xùn)練目標(biāo)自然擴(kuò)展為一個(gè)完整的文本生成過(guò)程。
擴(kuò)展無(wú)處不在,自監(jiān)督模型變生成模型
2019年發(fā)布的RoBERTa模型,是在原始BERT基礎(chǔ)上的一次強(qiáng)化升級(jí)。
圖片
預(yù)印本:https://arxiv.org/abs/1907.11692
它調(diào)整了超參數(shù)、擴(kuò)大了訓(xùn)練語(yǔ)料,并簡(jiǎn)化了訓(xùn)練目標(biāo)——
只保留MLM(掩碼語(yǔ)言建模),去掉了「下一句預(yù)測(cè)」任務(wù)。
而Nathan Barry使用HuggingFace的開(kāi)源庫(kù),加載RoBERTa的預(yù)訓(xùn)練權(quán)重、分詞器以及Trainer類(lèi),對(duì)模型進(jìn)行微調(diào),數(shù)據(jù)集選用 WikiText。核心代碼(完整代碼見(jiàn)原文)大致如下:
圖片
在當(dāng)前實(shí)現(xiàn)中,設(shè)定了10個(gè)擴(kuò)散步驟,每個(gè)訓(xùn)練批次隨機(jī)采樣一個(gè)遮蓋比例p,從 [1.0, 0.9, ..., 0.1] 中選取,然后對(duì)該比例的Token進(jìn)行掩碼處理。這個(gè)邏輯封裝在自定義的diffusion_collator 中:
圖片
在推理時(shí),從一個(gè)長(zhǎng)度為256的輸入向量開(kāi)始:前16個(gè)位置是提示詞(prompt)的Token ID,后面240個(gè)全是 <MASK>。然后,逐步減少掩碼比例,每一步都做預(yù)測(cè)、采樣、重新掩碼。流程如下:
圖片
對(duì)應(yīng)的簡(jiǎn)化代碼如下:
圖片
在H200顯卡上,經(jīng)過(guò)30分鐘訓(xùn)練后,模型基于如下提示詞生成了如下文本:
...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "
提示詞為:Following their victory in the French and Indian War, Britain began to assert greater...
生成的文本看起來(lái)出奇地連貫!其中大部分「怪異之處」, Nathan Barry歸因于WikiText數(shù)據(jù)集本身的格式化問(wèn)題——比如標(biāo)點(diǎn)符號(hào)前后帶空格,連字符「-」被處理成了@-@等。
圖片
數(shù)據(jù)顯示,GPT-2在輸出連貫性和生成速度方面略勝一籌(約9秒對(duì)比13秒)。
但RoBERTa Diffusion未經(jīng)優(yōu)化,如此效果,已令人驚喜。
這次的概念驗(yàn)證無(wú)疑非常成功——若能結(jié)合AR-Diffusion、跳躍步擴(kuò)散等新興技術(shù)并深度優(yōu)化,生成質(zhì)量與推理速度都將獲得飛躍提升。
擴(kuò)散模型歸來(lái)
通過(guò)實(shí)驗(yàn)證明,以RoBERTa為代表的掩碼語(yǔ)言模型(原本專(zhuān)為填空任務(wù)設(shè)計(jì)),將變比率掩碼重構(gòu)為離散擴(kuò)散過(guò)程,完全可以轉(zhuǎn)型為全功能生成引擎。
通過(guò)漸進(jìn)式植入<MASK>標(biāo)記污染文本,并訓(xùn)練模型在遞增的掩碼強(qiáng)度下迭代去噪,標(biāo)準(zhǔn)MLM目標(biāo)成功地轉(zhuǎn)化為漸進(jìn)式文本生成流程。
值得注意的是,即使不調(diào)整模型架構(gòu),僅對(duì)訓(xùn)練目標(biāo)進(jìn)行微調(diào)后的RoBERTa就能生成視覺(jué)連貫的文本。
這有力印證了一個(gè)重要洞見(jiàn):本質(zhì)上,BERT系模型就是在固定掩碼率上訓(xùn)練的文本擴(kuò)散模型。
Karpathy點(diǎn)贊了Nathan Barry的短文:
帖子雖短,卻解釋了文本(離散)擴(kuò)散模型可以有多簡(jiǎn)單。
……
許多擴(kuò)散模型的論文看起來(lái)頗為晦澀,但若拋開(kāi)數(shù)學(xué)形式的外殼,最終得到的往往是簡(jiǎn)潔的基礎(chǔ)算法。
圖片
例如在連續(xù)空間中更接近流匹配的方法,或是像這樣的離散空間方案,其本質(zhì)還是經(jīng)典的Transformer架構(gòu),只不過(guò)采用了雙向注意力機(jī)制——
根據(jù)噪聲調(diào)度計(jì)劃,在「token畫(huà)布」上迭代重采樣和重復(fù)掩碼處理所有token,直至最終步生成完整樣本。
自回歸生成的過(guò)程,就像是在Token畫(huà)布上不斷.append(token) ,每次只參考左側(cè)已有的上下文;
而擴(kuò)散式生成,則是在整個(gè)Token畫(huà)布上反復(fù).setitem(idx, token) ,每次都依賴(lài)雙向注意力進(jìn)行刷新更新。
從整個(gè)大語(yǔ)言模型(LLM)技術(shù)棧的角度來(lái)看,生成領(lǐng)域仍大有可為,存在著優(yōu)化與創(chuàng)新的空間。
今年更早的時(shí)候,在2025 I/O大會(huì)上,谷歌DeepMind發(fā)布了一項(xiàng)實(shí)驗(yàn)性的擴(kuò)展語(yǔ)言模型——Gemini Diffusion。
圖片
在速度上,擴(kuò)散語(yǔ)言模型優(yōu)勢(shì)明顯。以至于有網(wǎng)友預(yù)測(cè):文本擴(kuò)展模型就是每個(gè)人視而不見(jiàn)的下一步,因?yàn)橛?xùn)練成本太高了!
圖片
而「藍(lán)色巨人」IBM的作家也斷言,隨著下一代AI浮現(xiàn),擴(kuò)散模型要挑戰(zhàn)GPT。
圖片
參考資料:
https://nathan.rs/posts/roberta-diffusion/
https://x.com/karpathy/status/1980347971935068380
https://x.com/yacinelearning/status/1980351871413022901































