国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

擴(kuò)散不死,BERT永生!Karpathy凌晨反思:自回歸時(shí)代該終結(jié)了?

人工智能
谷歌遺珠與IBM預(yù)言:一文點(diǎn)醒Karpathy,擴(kuò)散模型或成LLM下一步。

Karpathy難以抵擋的誘惑!

蘋(píng)果的前員工、德克薩斯大學(xué)奧斯汀分校(UT Austin)的計(jì)算機(jī)科學(xué)研究生Nathan Barry,得出一個(gè)驚人的結(jié)論:

BERT本質(zhì)上,只是文本擴(kuò)散中的一步!

基于「強(qiáng)化版BERT」RoBERTa,他成功地把表示學(xué)習(xí)算法改造為生成算法:

圖片圖片

看完帖子后,OpenAI創(chuàng)始員工、特斯拉前AI總監(jiān)Karpathy陷入了沉思:

人類(lèi)的思維或許更偏向自回歸一些——一步步推進(jìn)的感覺(jué)。但在我們的思維潛空間里,也很難說(shuō)就不存在某種更像擴(kuò)散的機(jī)制。

說(shuō)不定在這兩者之間,其實(shí)可以繼續(xù)插值、或者更進(jìn)一步泛化。

這部分生成邏輯在LLM架構(gòu)中,依然是一個(gè)相對(duì)「可變」的部分。

不過(guò),Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開(kāi)發(fā)終級(jí)實(shí)踐項(xiàng)目「100美元帶回家的ChatGPT」,所以他只能「忍痛割?lèi)?ài)」:

現(xiàn)在我必須克制住用擴(kuò)散模型訓(xùn)練nanochat的沖動(dòng),不能偏離主線(xiàn)去搞支線(xiàn)任務(wù)了。

圖片圖片

順便提一句,當(dāng)天不久,他又被DeepSeek-OCR挑起了新念頭。

谷歌的遺珠

當(dāng)?shù)谝淮巫x到語(yǔ)言擴(kuò)散模型論文時(shí),Nathan Barry驚訝地發(fā)現(xiàn)它們的訓(xùn)練目標(biāo)只是掩碼語(yǔ)言建模(masked  language model,MLM)的一種推廣。

圖片圖片

而自從2018年BERT以來(lái),大家一直早已對(duì)掩碼語(yǔ)言建模習(xí)以為常。

圖片圖片

預(yù)印本:https://arxiv.org/abs/1810.04805

他腦海里立刻冒出一個(gè)想法:我們能不能把類(lèi)似BERT的模型微調(diào)一下,讓它也能做文本生成?

出于好奇,他做了個(gè)快速的驗(yàn)證實(shí)驗(yàn)。隨后,他發(fā)現(xiàn)其實(shí)早就有人做過(guò)了——DiffusionBERT基本就是這個(gè)想法,不過(guò)做得更嚴(yán)謹(jǐn)。

值得一提的是,大約3年前,DiffusionBERT由國(guó)內(nèi)高校的研究者提出,100%國(guó)產(chǎn)!

圖片圖片

預(yù)印本鏈接:https://arxiv.org/abs/2211.15029

最初,擴(kuò)散模型在圖像生成領(lǐng)域一炮而紅。

在圖像生成中,擴(kuò)散模型會(huì)先對(duì)圖像逐步添加高斯噪聲(前向過(guò)程),然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行迭代去噪(反向過(guò)程)。

圖片圖片

將這一思路應(yīng)用于文本領(lǐng)域,意味著我們需要找到方法對(duì)文本添加噪聲并在之后分階段消除。

最簡(jiǎn)單的實(shí)現(xiàn)方式是基于掩碼的噪聲處理流程:

  • 在前向過(guò)程中,初始文本未被破壞。在每一步迭代中,根據(jù)預(yù)設(shè)的調(diào)度計(jì)劃(從0%到100%),隨機(jī)將一定比例的詞語(yǔ)替換為特殊的<MASK>標(biāo)記
  • 在反向(去噪)過(guò)程中,訓(xùn)練模型根據(jù)每個(gè)<MASK>預(yù)測(cè)正確的原始詞語(yǔ)。這與掩碼語(yǔ)言模型(MLM)類(lèi)似,但采用了動(dòng)態(tài)掩碼率

為了解決以往方法存在的問(wèn)題,BERT提出了掩碼語(yǔ)言建模(Masked LM)。

具體做法是:對(duì)每條訓(xùn)練輸入序列隨機(jī)遮蓋15%的詞語(yǔ),僅對(duì)這些被遮蓋的詞進(jìn)行預(yù)測(cè)。用圖示語(yǔ)言來(lái)表達(dá)就是:

圖片圖片

換句話(huà)說(shuō),BERT的MLM訓(xùn)練目標(biāo),其實(shí)就可以看作是文本擴(kuò)散的一種特例,只不過(guò)它用的是固定的掩碼率。

而只要我們引入一個(gè)從0到1的動(dòng)態(tài)掩碼率范圍,就可以把BERT的訓(xùn)練目標(biāo)自然擴(kuò)展為一個(gè)完整的文本生成過(guò)程。

擴(kuò)展無(wú)處不在,自監(jiān)督模型變生成模型

2019年發(fā)布的RoBERTa模型,是在原始BERT基礎(chǔ)上的一次強(qiáng)化升級(jí)。

圖片圖片

預(yù)印本:https://arxiv.org/abs/1907.11692

它調(diào)整了超參數(shù)、擴(kuò)大了訓(xùn)練語(yǔ)料,并簡(jiǎn)化了訓(xùn)練目標(biāo)——

只保留MLM(掩碼語(yǔ)言建模),去掉了「下一句預(yù)測(cè)」任務(wù)。

而Nathan Barry使用HuggingFace的開(kāi)源庫(kù),加載RoBERTa的預(yù)訓(xùn)練權(quán)重、分詞器以及Trainer類(lèi),對(duì)模型進(jìn)行微調(diào),數(shù)據(jù)集選用 WikiText。核心代碼(完整代碼見(jiàn)原文)大致如下:

圖片圖片

在當(dāng)前實(shí)現(xiàn)中,設(shè)定了10個(gè)擴(kuò)散步驟,每個(gè)訓(xùn)練批次隨機(jī)采樣一個(gè)遮蓋比例p,從 [1.0, 0.9, ..., 0.1] 中選取,然后對(duì)該比例的Token進(jìn)行掩碼處理。這個(gè)邏輯封裝在自定義的diffusion_collator 中:

圖片圖片

在推理時(shí),從一個(gè)長(zhǎng)度為256的輸入向量開(kāi)始:前16個(gè)位置是提示詞(prompt)的Token ID,后面240個(gè)全是 <MASK>。然后,逐步減少掩碼比例,每一步都做預(yù)測(cè)、采樣、重新掩碼。流程如下:

圖片圖片

對(duì)應(yīng)的簡(jiǎn)化代碼如下:

圖片圖片

在H200顯卡上,經(jīng)過(guò)30分鐘訓(xùn)練后,模型基于如下提示詞生成了如下文本:

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials  administered British Ireland, a Celtic empire under the control of the Irish  nationalist authorities, defined as a dominion of Britain. As the newly Fortic  states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in  1890, led by the support of settlers from the Irish colonies. Looking inwards,  Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示詞為:Following their victory in the French and Indian War, Britain began to assert greater...

生成的文本看起來(lái)出奇地連貫!其中大部分「怪異之處」, Nathan Barry歸因于WikiText數(shù)據(jù)集本身的格式化問(wèn)題——比如標(biāo)點(diǎn)符號(hào)前后帶空格,連字符「-」被處理成了@-@等。

圖片圖片

數(shù)據(jù)顯示,GPT-2在輸出連貫性和生成速度方面略勝一籌(約9秒對(duì)比13秒)。

但RoBERTa Diffusion未經(jīng)優(yōu)化,如此效果,已令人驚喜。

這次的概念驗(yàn)證無(wú)疑非常成功——若能結(jié)合AR-Diffusion、跳躍步擴(kuò)散等新興技術(shù)并深度優(yōu)化,生成質(zhì)量與推理速度都將獲得飛躍提升。

擴(kuò)散模型歸來(lái)

通過(guò)實(shí)驗(yàn)證明,以RoBERTa為代表的掩碼語(yǔ)言模型(原本專(zhuān)為填空任務(wù)設(shè)計(jì)),將變比率掩碼重構(gòu)為離散擴(kuò)散過(guò)程,完全可以轉(zhuǎn)型為全功能生成引擎。

通過(guò)漸進(jìn)式植入<MASK>標(biāo)記污染文本,并訓(xùn)練模型在遞增的掩碼強(qiáng)度下迭代去噪,標(biāo)準(zhǔn)MLM目標(biāo)成功地轉(zhuǎn)化為漸進(jìn)式文本生成流程。

值得注意的是,即使不調(diào)整模型架構(gòu),僅對(duì)訓(xùn)練目標(biāo)進(jìn)行微調(diào)后的RoBERTa就能生成視覺(jué)連貫的文本。

這有力印證了一個(gè)重要洞見(jiàn):本質(zhì)上,BERT系模型就是在固定掩碼率上訓(xùn)練的文本擴(kuò)散模型。

Karpathy點(diǎn)贊了Nathan Barry的短文:

帖子雖短,卻解釋了文本(離散)擴(kuò)散模型可以有多簡(jiǎn)單。

 ……  

許多擴(kuò)散模型的論文看起來(lái)頗為晦澀,但若拋開(kāi)數(shù)學(xué)形式的外殼,最終得到的往往是簡(jiǎn)潔的基礎(chǔ)算法。

圖片圖片

例如在連續(xù)空間中更接近流匹配的方法,或是像這樣的離散空間方案,其本質(zhì)還是經(jīng)典的Transformer架構(gòu),只不過(guò)采用了雙向注意力機(jī)制——

根據(jù)噪聲調(diào)度計(jì)劃,在「token畫(huà)布」上迭代重采樣和重復(fù)掩碼處理所有token,直至最終步生成完整樣本。

自回歸生成的過(guò)程,就像是在Token畫(huà)布上不斷.append(token)  ,每次只參考左側(cè)已有的上下文;  

而擴(kuò)散式生成,則是在整個(gè)Token畫(huà)布上反復(fù).setitem(idx, token)  ,每次都依賴(lài)雙向注意力進(jìn)行刷新更新。

從整個(gè)大語(yǔ)言模型(LLM)技術(shù)棧的角度來(lái)看,生成領(lǐng)域仍大有可為,存在著優(yōu)化與創(chuàng)新的空間。

今年更早的時(shí)候,在2025 I/O大會(huì)上,谷歌DeepMind發(fā)布了一項(xiàng)實(shí)驗(yàn)性的擴(kuò)展語(yǔ)言模型——Gemini Diffusion。

圖片圖片

在速度上,擴(kuò)散語(yǔ)言模型優(yōu)勢(shì)明顯。以至于有網(wǎng)友預(yù)測(cè):文本擴(kuò)展模型就是每個(gè)人視而不見(jiàn)的下一步,因?yàn)橛?xùn)練成本太高了!

圖片圖片

而「藍(lán)色巨人」IBM的作家也斷言,隨著下一代AI浮現(xiàn),擴(kuò)散模型要挑戰(zhàn)GPT。

圖片圖片

參考資料:

https://nathan.rs/posts/roberta-diffusion/

https://x.com/karpathy/status/1980347971935068380

https://x.com/yacinelearning/status/1980351871413022901

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-08-14 09:10:00

2011-06-30 17:26:02

外鏈

2025-04-27 00:00:25

ClaudeOpenAIGPT

2022-06-29 14:22:10

APP互聯(lián)網(wǎng)

2025-08-26 09:11:53

2024-04-26 12:51:48

2016-12-27 15:21:18

2025-10-22 09:01:31

2025-02-27 13:45:00

2025-07-10 14:54:13

AI模型圖像生成

2013-07-31 15:51:38

2013-01-14 16:18:50

2024-04-17 13:22:55

人工智能

2025-08-12 09:08:00

2024-12-23 13:30:00

2013-04-25 16:42:44

Windows Pho反思、建議與忠告

2012-04-10 15:04:38

紅帽

2025-11-24 08:59:00

AI數(shù)據(jù)訓(xùn)練

2025-03-25 09:04:12

2025-06-11 09:21:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产午夜精品久久久久久免费视| 日本h片在线观看| 曰本一区二区三区视频| 欧美日韩性生活| 5月婷婷6月丁香| 极品中文字幕一区| 国内精品小视频在线观看| cao在线视频| 白嫩亚洲一区二区三区| 亚洲第一主播视频| 毛葺葺老太做受视频| 国产精品一区不卡| 日韩欧美亚洲v片| 激情欧美国产欧美| 亚洲最大福利视频网站| 九九久久电影| 国产精品久久久久久久美男| 24小时成人在线视频| 中文字幕久久亚洲| 深夜成人在线| 亚洲欧洲免费视频| 亚洲第一会所| 久久综合88中文色鬼| 少妇精品视频在线观看| 精品中文字幕在线观看| 超碰在线99| 久久精品视频va| 日韩av黄色| 久久91精品国产91久久跳| 国产精品久久久久77777丨| 精品sm捆绑视频| 牛牛精品在线视频| 亚洲欧美日韩在线高清直播| 亚洲精品555| 国产91色在线播放| 午夜国产精品视频| 国产免费色视频| caoporm超碰国产精品| 日本成人中文字幕在线| 一区二区三区精品久久久| 久久综合九色综合久| 亚洲精品综合精品自拍| 国产精品亚洲四区在线观看| 国产欧美精品xxxx另类| 福利在线视频网站| 久久久av亚洲男天堂| 99精品电影| 国内少妇毛片视频| 亚洲一区在线电影| 97蜜桃久久| 国产精品美乳在线观看| 九色综合狠狠综合久久| 欧美h版电影| 亚洲欧洲午夜一线一品| 亚洲激情中文| 亚洲视频在线观看一区二区三区| 欧美视频一区二区| 美女午夜精品| 无码人妻精品一区二区蜜桃网站| 亚洲图片欧美综合| 国产成+人+综合+亚洲欧美| 精品一区二区久久久久久久网站| 18欧美亚洲精品| 三上悠亚激情av一区二区三区| 国产精品久久久久影院日本 | 欧美性猛交xxxxx免费看| 大桥未久在线视频| 久久精品国产美女| 五月综合激情网| 小嫩嫩12欧美| 免费 成 人 黄 色| 亚洲日本中文字幕| 午夜影院欧美| 中文一区一区三区免费| 美乳少妇欧美精品| 欧美日韩国产片| 综合亚洲深深色噜噜狠狠网站| 国产日韩一区二区三区在线播放 | 日韩亚洲综合在线| 久久男人资源视频| av电影天堂一区二区在线| 电影在线一区| 精品日韩欧美| 亚洲国产欧美自拍| 久久国产夜色精品鲁鲁99| а√天堂8资源在线| 天天在线免费视频| 中文字幕日韩有码| 2020日本不卡一区二区视频| 国产色99精品9i| 亚洲少妇第一页| 国产噜噜噜噜噜久久久久久久久 | 中文字幕一区二区精品区| 欧美激情www| 日本va欧美va欧美va精品| www 日韩| 国产精品自拍视频在线| 欧美日韩成人一区二区三区| 久久久伊人日本| 亚洲精品中文字幕av| 中文字幕亚洲视频| 国产成人av福利| 免费国产亚洲视频| 在线看片不卡| 国内黄色精品| 日本午夜精品| 色综合久久网| 最新精品国产| 色综合视频一区二区三区日韩 | 午夜一区在线| 国产免费av国片精品草莓男男| 如如影视在线观看经典| 国产精品h视频| 国产精品xxx在线观看www| 在线看日韩av| 日韩美女主播在线视频一区二区三区| 久久精品亚洲一区二区三区浴池| 伊人久久亚洲影院| 婷婷精品在线观看| 伊人久久精品一区二区三区| 夜色资源站国产www在线视频 | 国产欧美综合在线观看第十页| 波多野结衣在线播放一区| 色综合久久久| 九色porny自拍视频在线播放| av影片免费在线观看| 裸体网站视频| 欧美性猛交xxx乱久交| 超碰免费在线公开| 视频在线99re| 欧美三级华人主播| 91在线观看欧美日韩| 国产精品久久77777| 性欧美办公室18xxxxhd| 久久婷婷国产麻豆91天堂| 精品国产乱码久久久久久老虎| 色综合久久中文综合久久97| 亚洲午夜久久久久久久久电影院 | 欧美国产精品日韩| 亚洲国产欧美久久| 精品亚洲一区二区三区在线观看 | 欧美va在线观看| 98色花堂精品视频在线观看| av女优在线| 婷婷色在线播放| 黄色激情在线播放| 日韩av免费| 日韩深夜影院| 国产精品久久久久一区二区三区厕所| 午夜欧美精品久久久久久久| 午夜在线精品偷拍| 成人激情黄色小说| 中文字幕欧美三区| 日韩欧美中文免费| 欧美大片国产精品| 精品亚洲一区二区三区在线观看| 日韩va亚洲va欧洲va国产| 欧美黑人xxxⅹ高潮交| 欧美国产一区视频在线观看| 一区二区三区资源| 色成人在线视频| 欧美在线999| 亚洲人成网站777色婷婷| 精品自在线视频| 国产高清自拍一区| 久久久成人精品一区二区三区| 免费黄色福利视频| 日本激情免费| 亚洲资源一区| 国产精品115| 在线亚洲成人| 一区二区视频在线看| 日韩欧美国产一区二区三区 | 一本色道久久88综合日韩精品| 日本久久久久久久久久久| 久久资源av| 人猿泰山h版在线观看| 亚洲综合电影| 欧美精品日韩| 一区二区免费在线| 一区二区三区美女xx视频| 国产精品一区二区你懂得| caoporn超碰97| 性xxxxfreexxxxx欧美丶| 中国成人一区| 亚洲一区二区欧美日韩 | 久久九九热re6这里有精品| 韩国女主播成人在线观看| 色女孩综合影院| 国产精品久久久久久久一区探花 | 日本成人一区二区三区| 成人豆花视频| 国内精品久久久久影院色| 精品国产91久久久久久老师| 4p变态网欧美系列| 91日韩视频在线观看| а天堂中文最新一区二区三区| 国产一区二区精品久久| 亚洲电影天堂av| 中文字幕剧情在线观看一区|