擴(kuò)散不死，BERT永生！Karpathy凌晨反思：自回歸時(shí)代該終結(jié)了?

2025-11-06 04:22:00

人工智能

谷歌遺珠與IBM預(yù)言：一文點(diǎn)醒Karpathy，擴(kuò)散模型或成LLM下一步。

Karpathy難以抵擋的誘惑！

蘋(píng)果的前員工、德克薩斯大學(xué)奧斯汀分校（UT Austin）的計(jì)算機(jī)科學(xué)研究生Nathan Barry，得出一個(gè)驚人的結(jié)論：

BERT本質(zhì)上，只是文本擴(kuò)散中的一步！

基于「強(qiáng)化版BERT」RoBERTa，他成功地把表示學(xué)習(xí)算法改造為生成算法：

圖片

看完帖子后，OpenAI創(chuàng)始員工、特斯拉前AI總監(jiān)Karpathy陷入了沉思：

人類(lèi)的思維或許更偏向自回歸一些——一步步推進(jìn)的感覺(jué)。但在我們的思維潛空間里，也很難說(shuō)就不存在某種更像擴(kuò)散的機(jī)制。

說(shuō)不定在這兩者之間，其實(shí)可以繼續(xù)插值、或者更進(jìn)一步泛化。

這部分生成邏輯在LLM架構(gòu)中，依然是一個(gè)相對(duì)「可變」的部分。

不過(guò)，Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開(kāi)發(fā)終級(jí)實(shí)踐項(xiàng)目「100美元帶回家的ChatGPT」，所以他只能「忍痛割?lèi)?ài)」：

現(xiàn)在我必須克制住用擴(kuò)散模型訓(xùn)練nanochat的沖動(dòng)，不能偏離主線(xiàn)去搞支線(xiàn)任務(wù)了。

圖片

順便提一句，當(dāng)天不久，他又被DeepSeek-OCR挑起了新念頭。

谷歌的遺珠

當(dāng)?shù)谝淮巫x到語(yǔ)言擴(kuò)散模型論文時(shí)，Nathan Barry驚訝地發(fā)現(xiàn)它們的訓(xùn)練目標(biāo)只是掩碼語(yǔ)言建模（masked language model，MLM）的一種推廣。

圖片

而自從2018年BERT以來(lái)，大家一直早已對(duì)掩碼語(yǔ)言建模習(xí)以為常。

圖片

預(yù)印本：https://arxiv.org/abs/1810.04805

他腦海里立刻冒出一個(gè)想法：我們能不能把類(lèi)似BERT的模型微調(diào)一下，讓它也能做文本生成？

出于好奇，他做了個(gè)快速的驗(yàn)證實(shí)驗(yàn)。隨后，他發(fā)現(xiàn)其實(shí)早就有人做過(guò)了——DiffusionBERT基本就是這個(gè)想法，不過(guò)做得更嚴(yán)謹(jǐn)。

值得一提的是，大約3年前，DiffusionBERT由國(guó)內(nèi)高校的研究者提出，100%國(guó)產(chǎn)！

圖片

預(yù)印本鏈接：https://arxiv.org/abs/2211.15029

最初，擴(kuò)散模型在圖像生成領(lǐng)域一炮而紅。

在圖像生成中，擴(kuò)散模型會(huì)先對(duì)圖像逐步添加高斯噪聲（前向過(guò)程），然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行迭代去噪（反向過(guò)程）。

圖片

將這一思路應(yīng)用于文本領(lǐng)域，意味著我們需要找到方法對(duì)文本添加噪聲并在之后分階段消除。

最簡(jiǎn)單的實(shí)現(xiàn)方式是基于掩碼的噪聲處理流程：

在前向過(guò)程中，初始文本未被破壞。在每一步迭代中，根據(jù)預(yù)設(shè)的調(diào)度計(jì)劃（從0%到100%），隨機(jī)將一定比例的詞語(yǔ)替換為特殊的<MASK>標(biāo)記
在反向（去噪）過(guò)程中，訓(xùn)練模型根據(jù)每個(gè)<MASK>預(yù)測(cè)正確的原始詞語(yǔ)。這與掩碼語(yǔ)言模型(MLM)類(lèi)似，但采用了動(dòng)態(tài)掩碼率

為了解決以往方法存在的問(wèn)題，BERT提出了掩碼語(yǔ)言建模（Masked LM）。

具體做法是：對(duì)每條訓(xùn)練輸入序列隨機(jī)遮蓋15%的詞語(yǔ)，僅對(duì)這些被遮蓋的詞進(jìn)行預(yù)測(cè)。用圖示語(yǔ)言來(lái)表達(dá)就是：

圖片

換句話(huà)說(shuō)，BERT的MLM訓(xùn)練目標(biāo)，其實(shí)就可以看作是文本擴(kuò)散的一種特例，只不過(guò)它用的是固定的掩碼率。

而只要我們引入一個(gè)從0到1的動(dòng)態(tài)掩碼率范圍，就可以把BERT的訓(xùn)練目標(biāo)自然擴(kuò)展為一個(gè)完整的文本生成過(guò)程。

擴(kuò)展無(wú)處不在，自監(jiān)督模型變生成模型

2019年發(fā)布的RoBERTa模型，是在原始BERT基礎(chǔ)上的一次強(qiáng)化升級(jí)。

圖片

預(yù)印本：https://arxiv.org/abs/1907.11692

它調(diào)整了超參數(shù)、擴(kuò)大了訓(xùn)練語(yǔ)料，并簡(jiǎn)化了訓(xùn)練目標(biāo)——

只保留MLM（掩碼語(yǔ)言建模），去掉了「下一句預(yù)測(cè)」任務(wù)。

而Nathan Barry使用HuggingFace的開(kāi)源庫(kù)，加載RoBERTa的預(yù)訓(xùn)練權(quán)重、分詞器以及Trainer類(lèi)，對(duì)模型進(jìn)行微調(diào)，數(shù)據(jù)集選用 WikiText。核心代碼（完整代碼見(jiàn)原文）大致如下：

圖片

在當(dāng)前實(shí)現(xiàn)中，設(shè)定了10個(gè)擴(kuò)散步驟，每個(gè)訓(xùn)練批次隨機(jī)采樣一個(gè)遮蓋比例p，從 [1.0, 0.9, ..., 0.1] 中選取，然后對(duì)該比例的Token進(jìn)行掩碼處理。這個(gè)邏輯封裝在自定義的diffusion_collator 中：

圖片

在推理時(shí)，從一個(gè)長(zhǎng)度為256的輸入向量開(kāi)始：前16個(gè)位置是提示詞（prompt）的Token ID，后面240個(gè)全是 <MASK>。然后，逐步減少掩碼比例，每一步都做預(yù)測(cè)、采樣、重新掩碼。流程如下：

圖片

對(duì)應(yīng)的簡(jiǎn)化代碼如下：

圖片

在H200顯卡上，經(jīng)過(guò)30分鐘訓(xùn)練后，模型基于如下提示詞生成了如下文本：

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示詞為：Following their victory in the French and Indian War, Britain began to assert greater...

生成的文本看起來(lái)出奇地連貫！其中大部分「怪異之處」， Nathan Barry歸因于WikiText數(shù)據(jù)集本身的格式化問(wèn)題——比如標(biāo)點(diǎn)符號(hào)前后帶空格，連字符「-」被處理成了@-@等。

圖片

數(shù)據(jù)顯示，GPT-2在輸出連貫性和生成速度方面略勝一籌（約9秒對(duì)比13秒）。

但RoBERTa Diffusion未經(jīng)優(yōu)化，如此效果，已令人驚喜。

這次的概念驗(yàn)證無(wú)疑非常成功——若能結(jié)合AR-Diffusion、跳躍步擴(kuò)散等新興技術(shù)并深度優(yōu)化，生成質(zhì)量與推理速度都將獲得飛躍提升。

擴(kuò)散模型歸來(lái)

通過(guò)實(shí)驗(yàn)證明，以RoBERTa為代表的掩碼語(yǔ)言模型（原本專(zhuān)為填空任務(wù)設(shè)計(jì)），將變比率掩碼重構(gòu)為離散擴(kuò)散過(guò)程，完全可以轉(zhuǎn)型為全功能生成引擎。

通過(guò)漸進(jìn)式植入<MASK>標(biāo)記污染文本，并訓(xùn)練模型在遞增的掩碼強(qiáng)度下迭代去噪，標(biāo)準(zhǔn)MLM目標(biāo)成功地轉(zhuǎn)化為漸進(jìn)式文本生成流程。

值得注意的是，即使不調(diào)整模型架構(gòu)，僅對(duì)訓(xùn)練目標(biāo)進(jìn)行微調(diào)后的RoBERTa就能生成視覺(jué)連貫的文本。

這有力印證了一個(gè)重要洞見(jiàn)：本質(zhì)上，BERT系模型就是在固定掩碼率上訓(xùn)練的文本擴(kuò)散模型。

Karpathy點(diǎn)贊了Nathan Barry的短文：

帖子雖短，卻解釋了文本（離散）擴(kuò)散模型可以有多簡(jiǎn)單。

……

許多擴(kuò)散模型的論文看起來(lái)頗為晦澀，但若拋開(kāi)數(shù)學(xué)形式的外殼，最終得到的往往是簡(jiǎn)潔的基礎(chǔ)算法。

圖片

例如在連續(xù)空間中更接近流匹配的方法，或是像這樣的離散空間方案，其本質(zhì)還是經(jīng)典的Transformer架構(gòu)，只不過(guò)采用了雙向注意力機(jī)制——

根據(jù)噪聲調(diào)度計(jì)劃，在「token畫(huà)布」上迭代重采樣和重復(fù)掩碼處理所有token，直至最終步生成完整樣本。

自回歸生成的過(guò)程，就像是在Token畫(huà)布上不斷.append(token) ，每次只參考左側(cè)已有的上下文；

而擴(kuò)散式生成，則是在整個(gè)Token畫(huà)布上反復(fù).setitem(idx, token) ，每次都依賴(lài)雙向注意力進(jìn)行刷新更新。

從整個(gè)大語(yǔ)言模型（LLM）技術(shù)棧的角度來(lái)看，生成領(lǐng)域仍大有可為，存在著優(yōu)化與創(chuàng)新的空間。

今年更早的時(shí)候，在2025 I/O大會(huì)上，谷歌DeepMind發(fā)布了一項(xiàng)實(shí)驗(yàn)性的擴(kuò)展語(yǔ)言模型——Gemini Diffusion。

圖片

在速度上，擴(kuò)散語(yǔ)言模型優(yōu)勢(shì)明顯。以至于有網(wǎng)友預(yù)測(cè)：文本擴(kuò)展模型就是每個(gè)人視而不見(jiàn)的下一步，因?yàn)橛?xùn)練成本太高了！

圖片

而「藍(lán)色巨人」IBM的作家也斷言，隨著下一代AI浮現(xiàn)，擴(kuò)散模型要挑戰(zhàn)GPT。

圖片

參考資料：

https://nathan.rs/posts/roberta-diffusion/

https://x.com/karpathy/status/1980347971935068380

https://x.com/yacinelearning/status/1980351871413022901

責(zé)任編輯：武曉燕來(lái)源：新智元

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

擴(kuò)散不死，BERT永生！Karpathy凌晨反思：自回歸時(shí)代該終結(jié)了?

谷歌的遺珠

擴(kuò)展無(wú)處不在，自監(jiān)督模型變生成模型

擴(kuò)散模型歸來(lái)