国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

OpenAI史上最硬核技術播客!系統(tǒng)揭秘GPT4.5誕生,已進入數(shù)據(jù)受限時代!小哥親述大模型修bug血淚史! 原創(chuàng)

發(fā)布于 2025-4-11 13:36
瀏覽
0收藏

整理 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

剛剛,奧特曼親自預熱的那期播客,完整版視頻終于上線啦!!!

這一次,OpenAI 也開始“學對手”了 —— 正式推出類似 Anthropic 風格的硬核技術播客內(nèi)容。

本期嘉賓陣容豪華,全部來自 OpenAI 核心團隊,首次系統(tǒng)揭秘 GPT-4.5 是怎么誕生的,深入探討它在模型訓練、系統(tǒng)架構(gòu)和數(shù)據(jù)效率上的關鍵突破。

OpenAI史上最硬核技術播客!系統(tǒng)揭秘GPT4.5誕生,已進入數(shù)據(jù)受限時代!小哥親述大模型修bug血淚史!-AI.x社區(qū)圖片

不同于OpenAI以往的“營銷味”,這個播客確實分享了前沿的訓練干貨,讓我有一種想法:在DeepSeek的感化之下,他們也想摘掉CloseAI的帽子了!

據(jù)說,OpenAI的開源大招也提上日程了。今天外網(wǎng)AI博主Tibor轉(zhuǎn)發(fā)了一個消息,OpenAI在為一個重磅的開源模型做聽證會邀請。

OpenAI史上最硬核技術播客!系統(tǒng)揭秘GPT4.5誕生,已進入數(shù)據(jù)受限時代!小哥親述大模型修bug血淚史!-AI.x社區(qū)圖片

說回這期博客,我們先來看看參與成員。

OpenAI史上最硬核技術播客!系統(tǒng)揭秘GPT4.5誕生,已進入數(shù)據(jù)受限時代!小哥親述大模型修bug血淚史!-AI.x社區(qū)圖片

從左到右分別是:

  • Sam Altman — OpenAI CEO。
  • Alex Paino —  OpenAI 的研究員, 負責了GPT-4.5 的預訓練數(shù)據(jù)和機器學習訓練工作。
  • Amin Tootoonchian (@atootoon) —  OpenAI 的首席系統(tǒng)架構(gòu)師,負責系統(tǒng)層面和網(wǎng)絡相關的整體架構(gòu)。
  • Dan Selsam — OpenAI 的研究員,參與了 OpenAI 的數(shù)學推理模型開發(fā),主要研究數(shù)據(jù)效率和算法。

我們先給這波扎實的技術干貨畫個重點:

1.GPT 4.5兩年前就啟動了,一開始的目標就是做到比 GPT-4 聰明10倍。由于訓練中涌現(xiàn)的意外問題,整個訓練過程比預想的更為耗時。

2.大模型訓練的難點,當從1 萬塊 GPU擴展到10萬塊GPU規(guī)模時,會出現(xiàn)各種“系統(tǒng)波動”,“低概率事件”會升級成“災難級問題”。

3.GPT-4只用了5-10人規(guī)模就完成了訓練,但GPT 4.5復雜得多。GPT-4o實際是在GPT-4.5 的研究過程中誕生的。

4.在 GPT-4 之前,我們基本還處于一個算力受限的時代;但從 GPT-4.5 開始,有些領域已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)受限。

5.現(xiàn)在最好的AI算法,距離人類的數(shù)據(jù)效率仍然有云泥之別。不過,隨著數(shù)據(jù)開始成為關鍵資源,這方面的進步會不斷追上。

6.研究員說GPT 模型訓練有些“難以預料”,隨著測試損失降低,模型更聰明了,但是“聰明在哪里”卻很難提前知曉。

7.目前并沒有發(fā)現(xiàn)更大的預訓練模型和更強的推理能力間有明確關系,表現(xiàn)得更“跳躍”,只是某些維度提升得更快。

8.預訓練模型其實是一個“壓縮器”,即便模型權(quán)重很大,但“可執(zhí)行文件”并不需要存儲所有權(quán)重,這意味著數(shù)據(jù)本身可以用非常少的位數(shù)進行編碼。

9.GPT 4.5證明Scaling laws依然有效,從哲學角度說它是“宇宙的屬性”,訓練更大的模型、它就更能“壓縮”,也會獲得更好的智力水平。

下面就來看看這次博客的完整內(nèi)容吧,enjoy:

訓練一個比GPT-4聰明10倍的模型,為啥這么難?

奧特曼:好吧,我們之前錄這種視頻,一般是為了介紹一個即將上線的新產(chǎn)品。但這次我們想做點不一樣的事——聊一聊這個產(chǎn)品背后的研究工作。

我們發(fā)布 GPT-4.5 的時候,覺得這個模型大家應該會喜歡,我們自己也很自豪。但沒想到大家比我們想象中更喜歡這個模型。

很多人會說:“我從沒想過能跟一個模型有這種交流體驗。” 它和 GPT-4 完全不同,不管是那些顯而易見的提升,還是那些難以描述的微妙差異。

很多人都很好奇 GPT-4.5 是怎么造出來的。

所以今天我們請來了幾個 GPT-4.5 核心團隊的成員,一起來聊聊這個模型,也聊聊我們從中學到的東西,以及打造這樣一個大模型需要什么。

我們不如就從這個問題開始吧:做出這樣一個大模型,到底需要什么?

Alex Paino:很多人、很多時間,還有大量算力。

奧特曼:好,那到底需要什么才能做出這樣一個模型(GPT 4.5)呢?

Alex Paino:我們這個項目大概是兩年前啟動的。當時我們知道會有一個更大的計算集群上線,遠處就能看見這件事要發(fā)生了。

我們開始做很多工作,比如確定我們希望在訓練中引入哪些功能,做了很多高風險的大型測試,制定了非常長遠的訓練計劃,涵蓋了從系統(tǒng)到模型的整個技術棧。

所以,從正式訓練開始前,我們就經(jīng)歷了一整段冗長的準備過程,而訓練本身則是更大規(guī)模的工程。

Amin Tootoonchian:我覺得這其實是一個從最初就由系統(tǒng)團隊和模型團隊共同推動的過程。直到我們真正確定好要訓練的模型后,才啟動正式訓練。

而我們工作的節(jié)奏非常快,尤其是在利用最新上線的計算資源方面,這就導致我們幾乎不可能做到百分百計劃周全。

所以我們幾乎總是帶著一堆未解決的問題啟動訓練,不斷推進中解決各種挑戰(zhàn)。我們要不斷追加算力、處理一些一開始沒預料到的問題—— 即使我們在系統(tǒng)側(cè)和模型側(cè)都做了大量預測。

我們不斷縮小“預測應該發(fā)生的事情”與“實際發(fā)生的事情”之間的差距。說到底,這是一個非常龐大的過程,最后階段的執(zhí)行尤其艱難,需要很多人、很多能量和長期的協(xié)作才能完成整個訓練。

奧特曼:那你覺得我們對最終結(jié)果的預測和現(xiàn)實差距有多大?

Amin Tootoonchian:從系統(tǒng)角度來看,最開始我們通常距離預期還挺遠的。

你總得面臨選擇——是推遲上線,直到更多問題解決,還是邊訓練邊解決問題。

這始終是一種權(quán)衡,要盡量別不合理地拖延進程。但幾乎總是有些問題在一開始是預料不到的。

整個過程的重點就是:盡可能解決我們已知的問題,并規(guī)劃好訓練流程,然后在推進中不斷應對那些未知情況,比如訓練是否順利、會持續(xù)多久等變量。

Alex Paino:從最高層目標來看,GPT-4.5 項目一開始的目標就是做到比 GPT-4 聰明10倍。

這個設想是兩年前我們就定下來的。當然在推進過程中,我們不斷思考“能不能再好一點?”“會不會做不到?” 這是一條極其復雜的道路。但最終我們做出了一個模型,確實在有效計算量投入方面達到了“比 GPT-4 強10倍”這個目標。

Amin Tootoonchian:從執(zhí)行層面看,這個過程當然遠比我們最初預想的要耗時。

奧特曼:確實如此。

Amin Tootoonchian:我們的任務就是努力壓縮訓練周期,使之盡可能接近預期。

奧特曼:我有個二合一的問題:為什么從用 1 萬塊 GPU 訓練,擴展到 10 萬塊 GPU,就會讓問題變得難上十倍?

Amin Tootoonchian:問題太多了。其實,如果你觀察得夠仔細,那些在大規(guī)模才顯著的問題,在小規(guī)模時就已經(jīng)有蛛絲馬跡。

只是到了大規(guī)模之后,一些“低概率事件”會變成“災難級問題”,尤其是如果你一開始沒預料到的話。

奧特曼:舉幾個例子?

Amin Tootoonchian:最常見的問題包括:基礎設施不穩(wěn)定、 故障率增高、故障類型復雜多樣,我們能觀察到的故障情況,連硬件供應商自己都沒見過,因為我們調(diào)動的是一個巨大的樣本池。

我們看到了資源執(zhí)行中的全部統(tǒng)計分布——包括網(wǎng)絡結(jié)構(gòu)、節(jié)點間連接、甚至單個加速卡的表現(xiàn)。但這也是其中的美感:要想模型最終表現(xiàn)理想,幾乎所有系統(tǒng)部件都必須按預期運行。我們的工作就是盡可能減少這種“系統(tǒng)波動”。

奧特曼:這個問題的下半部分:我們知道在“最前沿規(guī)模”上訓練模型很難,但我也注意到,當一個任務不再位于最前沿時,它就會變得容易得多。

比如 GPT-4 的訓練曾經(jīng)幾乎動用了整個 OpenAI 的資源。如果現(xiàn)在讓你們組一個最小團隊,從頭重訓 GPT-4,你們覺得需要多少人?

Alex Paino:我覺得現(xiàn)在要重訓一個 GPT-4 級別的模型,大概只需要 5~10 人就夠了。

Amin Tootoonchian:是的,我們確實是用這個規(guī)模訓練了 GPT-4。

不過 GPT-4.5 是另一種情況——它背后有更復雜的歷史,也有更多人參與,是完全不同的一次挑戰(zhàn)。

Alex Paino:不過,既然我們已經(jīng)完成了 GPT-4.5,整個技術棧其實已經(jīng)提升了很多。我們也確實在 GPT-4.5 的研究過程中重新訓練了一個 GPT-4 級別的模型,也就是 GPT-4o。

它用了 GPT-4.5 的很多技術積累,但這次的訓練團隊規(guī)模小得多。

奧特曼:那 Dan,你怎么看?為什么大模型訓練這么難?

Dan Selsam:我覺得做任何“新的事”本來就難。哪怕后來別人也做成了,這事也會立刻變簡單許多。

最難的是:你在最開始,必須有堅定信念去做一件沒人驗證過的事。一旦你知道“它是可能的”,那簡直像開了金手指。

Alex Paino:確實。我們其實是在把 GPT 的預訓練規(guī)模往上擴了整整 10 倍。

在這個過程中遇到的問題有很多是你事先根本想不到的。

繼續(xù)Scaling沒有“硬性上限”,重點是提升“數(shù)據(jù)效率”

奧特曼:那我們要繼續(xù)擴展 10 倍、甚至 100 倍的訓練規(guī)模,還需要什么?

Dan Selsam:數(shù)據(jù)效率。

奧特曼:什么意思?

Dan Selsam:Transformer 和 GPT 的一大優(yōu)勢是能非常高效地吸收數(shù)據(jù):它能提取信息、能壓縮和泛化 這幾乎是它的核心特征。但也有個“天花板”——它所能從一段數(shù)據(jù)中提取出的“深層洞見”是有限的。

所以當你的算力一直增長,而可用數(shù)據(jù)量增長很慢時,就會出現(xiàn)“數(shù)據(jù)成為瓶頸”的問題。這時就需要在算法層面有突破:用更多算力,從同樣數(shù)據(jù)中“學得更多”。

奧特曼:除了數(shù)據(jù)效率,你覺得還需要什么,才能繼續(xù)擴展?

Amin Tootoonchian:從系統(tǒng)角度看,每一代 GPT 的訓練其實都代表著我們在基礎設施上的大規(guī)模升級。

GPT-4.5 之所以需要動這么多人、改這么多東西,正是因為它本身的模型規(guī)格發(fā)生了質(zhì)變。

我們根本不可能用 GPT-4 的系統(tǒng)架構(gòu)直接來訓練 GPT-4.5。

Amin Tootoonchian:比如說狀態(tài)管理,我們對這部分的處理方式也發(fā)生了改變。因為要擴展更多算力,而這些算力并不都集中在一個集群里,所以我們不得不采用多集群訓練。你可以想象,這是許許多多不同的工作流,需要在極短的時間內(nèi)拼接在一起,才能完成這件事。

當我們計劃再做一次 10 倍的突破時,有些我們之前明知存在的問題,這次為了加快推進節(jié)奏選擇跳過了——但下次就必須解決,沒有回避的余地。

這些技術選擇正是讓“打造完美系統(tǒng)”的時間線變得更長的原因。我們一直都在妥協(xié):在“追求完美”與“盡快搞出來”之間尋找平衡。

Amin Tootoonchian:系統(tǒng)本身并不是一個最終產(chǎn)品,它是為了支撐真正的產(chǎn)品存在。

所以如果我們要做下一個 10 倍突破,對我來說最重要的是“容錯能力”——但不是傳統(tǒng)意義上的容錯,而是與工作負載協(xié)同設計出的容錯系統(tǒng),這樣我們就不用再承受龐大訓練任務所帶來的巨大運維壓力。

我們以前的系統(tǒng),在訓練 GPT-4.5 的時候,已經(jīng)到了快跟不上節(jié)奏的極限。

奧特曼:你知道 GPT-4.5 的訓練過程中,有多少百分比的訓練步驟因為某些組件故障而失敗了嗎?

Amin Tootoonchian:我現(xiàn)在腦子里沒有準確數(shù)字。但通常來說,問題是這樣的:新一代硬件剛上線時,它的一些故障并不是大家一開始就完全理解或研究透的。

我們一邊推進訓練,一邊解決這些問題。

Amin Tootoonchian:當然,訓練早期的故障率會非常顯著。

但也很有可能是:當我們找到了問題的根源并修復之后,故障數(shù)量會大幅下降。

這幾乎是訓練的常態(tài)。我們總是邊干邊學。

Amin Tootoonchian:你可以把它看作是在做系統(tǒng)“清潔工作”或“基礎問題診斷”。

一旦這些問題搞清楚了,系統(tǒng)穩(wěn)定性就會大幅提升。但在早期訓練階段幾乎總是最痛苦的——我們在探索新故障模式、新硬件帶來的影響,同時還得繼續(xù)推進進度。當然,到了后期,故障率會顯著降低,整體運行時間穩(wěn)定性也會上升。

但問題就在于:你無法提前預測新一代基礎設施在“初期階段”的具體表現(xiàn)。如果你只為“穩(wěn)定階段”做設計,那在早期訓練里可能就會遇到非常糟糕的可用性問題。

奧特曼:我們都知道推理類模型是未來發(fā)展的關鍵部分。

但如果暫時不談推理,只討論“經(jīng)典預訓練模型”這條路線:假設我們擁有無限的 GPU、無限網(wǎng)絡資源、無限電力,但依然受限于我們當前的系統(tǒng)問題,比如容錯機制還沒搞定、數(shù)據(jù)也就這么多等等。

如果每一代 GPT 的數(shù)字代表一個“百倍飛躍”,那你覺得現(xiàn)在我們用現(xiàn)有資源,最多能訓練到 GPT 多少級別?比如 GPT-5.5?

Alex Paino:從機器學習和算法角度講,我覺得我們還沒遇到什么“硬性上限”。

我們現(xiàn)在才剛剛開始真正挖掘“數(shù)據(jù)效率算法”的潛力,也剛剛找到更有效利用現(xiàn)有數(shù)據(jù)的方法。

有趣的是,在 GPT-4 之前,我們基本還處于一個算力受限的時代,研究重點全壓在怎么搞到更多算力。

但從 GPT-4.5 開始,有些領域我們已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)受限,這在某些數(shù)據(jù)維度上是個重大轉(zhuǎn)折點,也讓這一方向的研究變得更加令人興奮。

奧特曼:這是一個顛覆性的變化——我覺得整個世界現(xiàn)在還沒真正意識到:我們已經(jīng)不是在“算力極限”上打造最強模型了。這跟我們過去一直以來賴以生存的技術現(xiàn)實,完全不同了。

修bug修到崩潰,一個最不起眼的bug貫穿模型訓練的40%

奧特曼:那你們在訓練 GPT-4.5 過程中,有什么最有意思的 ML 方面的發(fā)現(xiàn)可以分享的嗎?

Amin Tootoonchian:我不太確定我能分享多少細節(jié),但我可以說:我們最有價值的經(jīng)驗之一就是:當模型沒有沿著我們預測的“性能斜率”前進時,我們必須搞清楚為什么。

Alex Paino:對,我覺得最讓我意外的一點是:我們在模型端做的很多工作,在訓練過程中體現(xiàn)出有的能很好擴展,有的卻不能。

這些我們很多都是在實戰(zhàn)中才發(fā)現(xiàn)的,這個過程確實讓我們學到了很多。

Dan Selsam:我覺得 GPT 模型訓練最具代表性的兩個特征就是:你可以預測測試損失(test loss); 而且它的擴展性非常“神奇”——測試損失降低,智能就會上升,體現(xiàn)在一系列不可思議、難以預料的方面。

奧特曼:你是這方面的“極致信徒”嗎?你完全相信這個關系成立?

Dan Selsam:可以這么說吧。我們在 GPT-4.5 上做過重新測試,發(fā)現(xiàn)模型擁有很多極其細膩的能力,這些都不在任何人的預測清單里。

我們唯一的信念就是:這個模型會更聰明,但“聰明在哪里”其實很難提前定義。可一旦你上線使用,就會發(fā)現(xiàn)它在很多細微的地方都變聰明了—— 它的常識更強、理解更細膩、語境處理能力也更好了。

這就是“多出那一點點 test loss 帶來的神奇魔法”。我覺得這種“隨著 test loss 降低,能力變強”的擴展規(guī)律依然是成立的。

奧特曼:那訓練過程中有沒有什么最積極、最讓你感動的瞬間?雖然過程充滿痛苦,但總得有個美好記憶吧?

Alex Paino:我有一個瞬間印象挺深的。

我們在訓練期間還持續(xù)在調(diào)模型的 ML 層設計,而且訓練中期的一些改動居然效果比預期好很多。那一刻我們非常激動。

Amin Tootoonchian:對我來說,這應該是我投入“IC 時間”(獨立貢獻者的時間)最多的一次訓練過程。

我們一邊訓練,一邊還在并行搭建系統(tǒng),為了提速而極度并行地推進各項工作。我們都相信這些努力會有結(jié)果——只要撐過某個性能瓶頸,模型就能恢復可訓練性,否則訓練時間會無限拉長。我們有明確的計劃,每個人都在執(zhí)行。但過程真的比我預想的難得多,時間也拖得更久。

最讓我感動的是:當幾個關鍵問題被解決后,性能突然躍升了一大截。那一刻你能感覺到整個團隊的氛圍都變了。

奧特曼:你還記得那個瞬間嗎?

Amin Tootoonchian:當然,大家的精氣神都不一樣了,情緒被點燃了,動力更足了。那種感覺很神奇。

Alex Paino:我們的任務狀態(tài)追蹤器也從之前的“卡殼”,變成了“進度條瘋漲”。

Amin Tootoonchian:是的,這種狀態(tài)變化對士氣的推動太重要了。還有一點我特別想提的是:ML 端的協(xié)同并沒有在模型上線那天就結(jié)束。

很多本來打算“上線后再修”的問題,大家在上線后也持續(xù)在優(yōu)化。每個人都主動出手,不再是“我做完交接就不管了”。團隊協(xié)作的這種精神,非常強大。

Dan Selsam:我們剛才一直在強調(diào)這個訓練過程多難、預測多不準——但其實背后是巨量的高質(zhì)量規(guī)劃。

Amin Tootoonchian:沒錯。

Dan Selsam:你們要不要展開講講?

Alex Paino:這確實是我們有史以來計劃最充分的一次訓練。我們在正式訓練前就已經(jīng)籌備了差不多一年時間,做了多輪超大規(guī)模的風險測試(de-risking runs)。

我們非常小心地安排每一個變更,始終從“高置信度、已驗證配置”出發(fā)——

比如 GPT-4 這種我們非常熟悉的配置,在這個基礎上一點點迭代、加入新功能,

而且每次都要認真評估每項變更的可擴展性。

不是說看到一個功能在小規(guī)模下有效果就夠了——我們要確保這個效果在大規(guī)模下也同樣成立、不會衰減。很多東西在小模型上看起來不錯,但放大之后就失效了。

所以我們整個流程都極度謹慎,同時也在不斷完善“擴展法則(scaling laws)”的方法論。

這也是我們未來訓練更多 GPT 模型的核心參考。

Amin Tootoonchian:你剛才說的那個有趣瞬間,讓我想起了另一個特別有意思的片段。

這個故事有點“Torch Do Sum”(指bug既基礎又莫名其妙)的味道(笑)。你可以想象,我們上線一個這么復雜的系統(tǒng),它肯定會有 bug——各種各樣的 bug,這是“默認值”。

但同時我們也要繼續(xù)推進,要保證整個訓練流程是在正確的軌道上運行。雖然我們非常清楚有些 bug 的確很嚴重,但我們也構(gòu)建了很多系統(tǒng),來幫助我們區(qū)分問題來源:

  • 是硬件故障嗎?
  • 是哪類硬件的問題?
  • 是數(shù)據(jù)損壞?
  • 還是某種潛在的機器學習 bug?比如我們代碼里的某種錯誤?

當時,我們手上同時有好幾個開放的“未解線程”,都有不同的癥狀,都是模型正確性相關的問題。我們當然也找到了一些 bug 并修復了它們。

我們一度陷入了一個狀態(tài):這些看似不同的問題,到底是多個 bug 造成的,還是其實只源自一個 bug?所以我們坐在會議室里,每個人投票:你覺得是哪一個因素導致了這些問題?

結(jié)果——真正的那個 bug 是得票最少的選項!

那個 bug 是在 torch.sum 函數(shù)中的一個非常簡單的加法實現(xiàn)錯誤,位于上游代碼中。特別搞笑的是:我們其實主要是在用 Triton 和 XLA,但在某些邊緣情況、某些無關緊要的算子上,我們就會回退到 PyTorch 默認實現(xiàn)。

而其中一段數(shù)據(jù)剛好觸發(fā)了 PyTorch 的這個錯誤路徑,造成了一個非常低頻的 bug,具體表現(xiàn)是非法內(nèi)存訪問,內(nèi)存偏移計算錯了。

最精彩的是:當我們工程師找到這個 bug 時,他說:“我定位到了,是這一行代碼。我們打個補丁看看是不是能解決所有問題。”

結(jié)果——所有奇怪的 bug 全都解決了。

這些癥狀之前看起來完全不一樣,結(jié)果源頭是一個代碼路徑。我們當時還把 Slack 里幾個“多假設討論頻道”都重命名成了“單 bug 理論頻道”,那一刻真的特別有趣!

奧特曼:這個事是訓練流程中什么時候發(fā)生的?我記不太清了。

Amin Tootoonchian:其實這個 bug 從訓練早期就一直存在,大概覆蓋了整個訓練的 40%。

奧特曼:你們還記得是誰發(fā)現(xiàn)的嗎?

Amin Tootoonchian:我記得當時我們在分析一連串的 kernel 執(zhí)行序列,其中第 2 個 kernel 總是觸發(fā)非法內(nèi)存訪問。

那是一個我們寫的非常復雜的 kernel,大家都以為 bug 肯定在里面。于是很多很聰明的同事,一行一行看這個 kernel,最終確實找到了 bug,修復之后解決了一部分問題,但還有一些 bug 仍然存在。

結(jié)果有一天,有個工程師注意到:喂,這個 kernel 的輸入之一,居然來自 PyTorch 的一個很偏門的代碼路徑。而我們剛好觸發(fā)了這個幾乎沒人會觸發(fā)的代碼分支。

于是他說:“是這里有問題。” 我們沒有什么復雜驗證手段,只能“修個補丁,看崩潰還在不在”。

結(jié)果一修所有崩潰都沒了。

我們才知道:這個超低頻 bug,其實一直在造成非常嚴重的隱患—— 大概每 100 次、甚至 1000 次訓練步驟才崩一次,容易被忽略。

但我們有個信條就是:不該讓任何已知問題在訓練中混過去。所以我們堅持追查到底。

這個故事的重點就是:堅持不放棄,哪怕是一個微不足道的 bug。

預訓練人員,在正式訓練后還有啥工作?

奧特曼:Alex,我知道大家可能能想象你訓練前的生活很忙,但訓練開始后,你的日常是什么樣?是在那兒“盯著 loss curve (損失曲線:模型在訓練時會不斷試圖最小化損失函數(shù))看”嗎?你怎么安排?

Alex Paino:對,真的有很多時間都在看 loss curve(笑),我們大家都干了很多這個事。

當然除了看 loss,還有很多工作:

  • 和系統(tǒng)團隊一起協(xié)作,把沒趕上上線的一些改進盡快合入;
  • 持續(xù)監(jiān)控訓練過程,看有沒有什么異常趨勢,比如某些統(tǒng)計指標走偏了;
  • 機器學習這邊也不斷在想辦法優(yōu)化訓練效果;
  • 數(shù)據(jù)這塊上線之后稍微輕松一點,但其他方面仍然很忙。

Amin Tootoonchian:我們在 ML 層面也承擔了很多模型正確性的判斷任務。

你可以想象,早期的信號往往非常嘈雜,有時候感覺就像在“讀茶葉渣”預測未來一樣(笑)。

有些問題,你要等很久才能驗證到底健康不健康——但我們有責任提前判斷。

奧特曼:那你們碰到“虛驚一場”的概率高嗎?就是看上去很糟,但其實沒事的情況?

Alex Paino:這種情況相當常見,我覺得大概有一半時候是虛驚吧。我們這群人真的挺焦慮的,所以我們傾向于“盯得更緊一點”。

人類的“數(shù)據(jù)效率”碾壓AI,算法與人類仍有“天文數(shù)字”之差

奧特曼:好,我來幾個快問快答:如果你能在下一次大訓練前解決一個 ML 問題,你最希望搞清楚什么?

Alex Paino:我最想知道的是:在數(shù)據(jù)有限的特定領域里,我們該使用什么算法。

這個問題很大,答案也很復雜。

奧特曼:那如果你能對現(xiàn)有硬件做出一個改變,比如發(fā)明一種新的網(wǎng)絡結(jié)構(gòu)或者芯片架構(gòu),系統(tǒng)瓶頸現(xiàn)在卡在哪?

Amin Tootoonchian:我希望是在傳輸層或網(wǎng)絡層做改變。現(xiàn)在很多錯誤,其實是可以在“應用層之下”就處理掉的。

我希望網(wǎng)絡傳輸能自己干好自己的事,別讓我擔心它的帶寬、可用性或者中斷問題。

奧特曼:那這個方向上,現(xiàn)在有沒有什么比較 promising 的方案?

Amin Tootoonchian:有的。

奧特曼:那我們線下聊(笑)。接下來兩個問題問 Dan:我們剛才談到“數(shù)據(jù)效率”,人類雖然在很多方面不完美,但我們學得超級快。

你覺得,我們現(xiàn)在最好的算法,距離人類的數(shù)據(jù)效率還差多遠?

Dan Selsam:這個問題很難“蘋果對蘋果”地比較。

奧特曼:那你就憑直覺說說吧。

Dan Selsam:如果按語言理解來說,那差距是天文數(shù)字級別的遠。

奧特曼:十萬倍那種?

Dan Selsam:對,差不多就那個量級吧。

當然取決于你怎么定義“信息單位”,比如你要是把人類視神經(jīng)接收的每一位像素都算上,那算法上我們根本還沒搞清楚怎么從這些信息中抽象到“人類級別的文本理解”。

所以總結(jié)一下——我們算法上離人類還有很遠的距離。

奧特曼:那第二個問題:你覺得我們目前這條技術路徑(比如 transformer +大數(shù)據(jù)訓練)未來能實現(xiàn)人類級別的數(shù)據(jù)效率嗎?

還是說這條路根本到不了,也沒必要去到?

Dan Selsam:我覺得過去幾十年,深度學習的核心優(yōu)勢一直是算力效率。

除了數(shù)據(jù)和算力的增長,真正神奇的是:算法的微小進步可以很好地“疊加”。

世界各地的研究者會陸續(xù)發(fā)現(xiàn)某個技巧能提升 10%、20%,然后這些技巧可以像“積木”一樣組合起來。

但我們在數(shù)據(jù)效率這塊,還沒有出現(xiàn)這種“全球范圍的 mobilization(大規(guī)模動員)”。

主要原因是:之前不值得做這件事——數(shù)據(jù)夠多、算力才是瓶頸,搞數(shù)據(jù)效率意義不大。但現(xiàn)在我們進入了一個新階段:數(shù)據(jù)開始成為關鍵資源,我們也會開始積累這方面的勝利:10% 這里,20% 那里,一步步前進。

我覺得我們現(xiàn)在去預測是否會撞上某個“上限”,其實有點武斷。畢竟我們還沒有任何確切證據(jù)表明會撞墻。但可以肯定的是,人腦的運行機制和我們現(xiàn)在做的任何微調(diào)算法都完全不同,所以我們必須持一點保留態(tài)度。不過我仍然認為,我們有很多理由保持樂觀。

預訓練Scaling帶來了強泛化,但不一定帶來強推理

奧特曼:下一個問題給你們?nèi)齻€,回答可以是“是/否”或者補充解釋:人類未來會不會進行一次同步使用一千萬張 GPU 的預訓練任務?

Alex Paino:我不確定那會不會是個“預訓練”任務,但我覺得一定會有那種規(guī)模的訓練任務。

奧特曼:也就是說,會有“一千萬張 GPU 同時工作的訓練任務”?

Alex Paino:對,雖然可能和我們現(xiàn)在的訓練方式完全不同,但一定會有某種形式的無監(jiān)督學習達到那種規(guī)模。

Amin Tootoonchian:我覺得我們可以稱之為“半同步(semi-synchronous)”,那個規(guī)模聽起來很誘人,我希望能看到。

奧特曼:你剛才用的是“半同步”這個說法,是吧?

Amin Tootoonchian:對,我覺得不會是完全同步的——畢竟自然法則擺在那里,不可能完全違背。

Dan Selsam:我覺得更可能的是一個“去中心化”的形態(tài)。肯定會有一千萬張 GPU 一起工作在某個 AI 系統(tǒng)上,讓它學習和執(zhí)行任務。但就像大腦的不同部分不會同時溝通一樣,它們可能不會彼此時時通信。

奧特曼:合理。那么我們有沒有發(fā)現(xiàn):更大的預訓練模型和更強的推理能力之間,有什么明顯的關聯(lián)?

Alex Paino:我們觀察到,更好的預訓練往往可以整體抬升模型的智能水平,而且也有助于泛化能力的提升。而推理能力呢,它可能表現(xiàn)得更“跳躍”一些,或者說某些維度提升得更快。

這兩者其實是很好的互補。

奧特曼:那我再追問一點:你們有沒有覺得有點奇怪——為什么預訓練的泛化能力那么強,幾乎能學到所有東西;但一旦我們專門教模型“推理”,它卻往往只在一個任務上表現(xiàn)突出?

Alex Paino:是的,這點挺有趣,但也不意外。

因為你看,我們訓練預訓練模型的時候,用的是非常廣泛、多樣化的數(shù)據(jù),目標本身就是“覆蓋盡可能多的領域”。但推理模型,尤其是強化學習類型,往往是在非常受限的環(huán)境中訓練,你很難獲得穩(wěn)定的獎勵信號和廣泛的訓練場景。

Dan Selsam:我同意,而且我覺得還有一個關鍵差別是:預訓練本質(zhì)上是一種壓縮過程。

壓縮意味著模型要識別數(shù)據(jù)中的聯(lián)系、類比和抽象結(jié)構(gòu)。而推理是對某個具體問題的處理,它有一種“思維的技藝”。

當你訓練模型去壓縮跨領域的數(shù)據(jù)時,其實是在學更高層次的抽象,這正是預訓練帶來的“廣義智能”。

系統(tǒng)擴展的關鍵:不斷優(yōu)化聯(lián)合設計、更好地分配資源

奧特曼:說得好!我臨時想換個問題:未來系統(tǒng)擴展的主要瓶頸會是什么?芯片?處理器?內(nèi)存?網(wǎng)絡?還是電力?

Amin Tootoonchian:系統(tǒng)的美妙之處在于:如果你進行聯(lián)合設計(co-design),那么工作負載其實可以適應你所構(gòu)建的基礎設施。

所以我們不能簡單說“網(wǎng)絡就是瓶頸”或“內(nèi)存帶寬是瓶頸”——我們可以調(diào)整資源需求分配,去構(gòu)建一個更加均衡的系統(tǒng)。

當然,預訓練和推理階段的答案可能也不同。

不過話說回來,內(nèi)存越多肯定越好。這是一個很難給出“單一答案”的問題。

奧特曼:那說到這個,在準備 GPT-4.5 的訓練任務時,你們的團隊在模型規(guī)格設計上合作密切嗎?

Alex Paino:非常密切,甚至到我們希望用的矩陣尺寸都要一起優(yōu)化。

在這個項目中,從訓練前的六到九個月開始,我們就在做系統(tǒng)和模型之間的深度協(xié)同設計。我們還專門做了一次大規(guī)模 de-risking run,目標就是驗證系統(tǒng)-ML 的協(xié)同在規(guī)模化訓練中是否有效。

我覺得這是我們第一次在“協(xié)同設計”上投入這么大的精力,而且非常關鍵。

Amin Tootoonchian:沒錯,這是我們第一次真正意義上的系統(tǒng)-模型聯(lián)合架構(gòu)設計。

關鍵不是“微調(diào)哪個部分”,而是你必須主動讓系統(tǒng)去“長出”你想要的性質(zhì),這些特性不會憑空出現(xiàn)。協(xié)同設計的過程決定了整個架構(gòu)的構(gòu)成方式,是系統(tǒng)側(cè)與模型側(cè)之間的連接橋梁。

Amin Tootoonchian:理想情況下,我當然希望系統(tǒng)和模型完全解耦,各做各的,但現(xiàn)實中有時你必須為基礎設施的約束去做出結(jié)構(gòu)妥協(xié)。

很多時候我們追求的其實是一個“對稱型系統(tǒng)”——通信均衡、資源分配合理。

在這種情況下,協(xié)同設計就是我們最有力的工具。

奧特曼:那你覺得我們離你理想中的系統(tǒng)還有多遠?你有沒有那種“我終于滿意了”的時刻?

Amin Tootoonchian:我們離理想還遠得很,說實話。但這正是系統(tǒng)建設的樂趣:你總有一個理想藍圖,然后努力逼近它。我們不是為了空談理論,而是想盡辦法讓它變得現(xiàn)實,盡量貼近那個理想目標。

說實話,這可能是做系統(tǒng)最令人興奮的階段了。你能提出假設,然后很快驗證自己的設計是不是對的。過去,我們做出一個“優(yōu)雅系統(tǒng)設計”,要靠時間慢慢驗證;現(xiàn)在,我們手上有算力、有目標、有問題,我們可以迅速去驗證自己的決策是否有效。

奧特曼:那你們團隊在規(guī)劃一次訓練時,會有多少精力放在“系統(tǒng)設計約束”上?

Alex Paino:非常多。我覺得從 GPT-4.5 開始,我們在模型架構(gòu)方面就已經(jīng)進入一個新階段。

我們不斷有新的探索,繼續(xù)推進協(xié)同設計,也在考慮如何為下一代硬件預留空間。

其實現(xiàn)在已經(jīng)有不少令人振奮的成果了。

奧特曼:好,換一個問題:為什么無監(jiān)督學習有效?

Dan Selsam:因為它本質(zhì)上是“壓縮”。你可以用一個更哲學的理論來解釋:Solomonoff 歸納法。

它認為,一個理想智能體不知道自己身處哪種宇宙,所以它會考慮所有可能的宇宙,其中越簡單的宇宙被賦予更高概率。它是完全貝葉斯的,每次獲取新信息時都會更新自己的信念。

而預訓練模型在做的,其實就是在試圖找出一個“最短程序”來解釋人類世界中的所有數(shù)據(jù),這是一種對理想智能行為的近似。

奧特曼:那為什么“預測下一個 token”可以實現(xiàn)這種壓縮呢?

Dan Selsam:這個問題其實挺微妙的。統(tǒng)計學上曾經(jīng)有個類似的悖論:為什么深度網(wǎng)絡能泛化,而它們看上去并沒有壓縮數(shù)據(jù)?

你看,傳統(tǒng)統(tǒng)計里,模型小、數(shù)據(jù)多,模型能擬合數(shù)據(jù),說明它“壓縮”了信息。

但現(xiàn)在的預訓練模型本身非常龐大,甚至跟數(shù)據(jù)量是同級別的, 那它到底是在壓縮、還是只是記憶?這就是核心謎題。

Dan Selsam:當然,也有批評者會說,預訓練只是記憶和插值,是表層的、不智能的。

但其實有一種角度可以讓我們看到:預訓練模型其實是一個“壓縮器”,雖然是不那么直觀的方式。

這個思路叫做 Prequel Compression(前向壓縮)。它的核心觀點是:如果一個模型能在訓練中學得很快,就說明它其實是個優(yōu)秀的壓縮器。

即便模型權(quán)重很大,但“可執(zhí)行文件”并不需要存儲所有權(quán)重 —— 它可以從零開始預訓練出一個“解壓器”。這意味著數(shù)據(jù)本身可以用非常少的位數(shù)進行編碼。

所以從這個角度看,預訓練確實是一個非常有效的壓縮過程,也正是它能帶來智能的原因。

奧特曼:你們還有什么想補充的嗎?

Alex Paino:沒有了,很精彩。

Amin Tootoonchian:我也是,謝謝你。 

再談Scaling Laws:為何有效、為何這是符合宇宙規(guī)律的

Dan Selsam:我想順便提一個我們之前沒提到的點:“度量指標的選擇”是一個極其重要的學科。

你在做 scaling laws(擴展法則)和機器學習實驗時,最后的結(jié)果高度依賴于你選用的度量方式。

奧特曼:你具體指什么?能展開說說嗎?

Dan Selsam:你要不要來講講?

Alex Paino:我們說的“度量”,其實主要是:你在哪個測試集上去評估模型的“困惑度(perplexity)”。

Dan Selsam:是的,如果你光看 perplexity,很多人會誤以為我們是在看什么“大學測試題”。

Alex Paino:對,我們要不要解釋一下什么是 perplexity?

Dan Selsam:值得說說。

我們總是很想用人類可讀的測試來評估模型的智能——但如果你這么做,可能反而會鼓勵模型靠記憶取勝,而不是變聰明。

市面上幾乎所有測試題,在互聯(lián)網(wǎng)上都能找到類似版本。而如果你訓練數(shù)據(jù)包含了整個互聯(lián)網(wǎng),那模型考這些題其實就不算本事了。

所以目前業(yè)內(nèi)更主流的做法是:看模型在一組“高質(zhì)量、未見過的數(shù)據(jù)”上的壓縮效果。但就算這樣,如果你對這個“held-out 數(shù)據(jù)集”選擇不夠嚴格, 而它又跟訓練集太像,那優(yōu)化訓練算法只會讓模型更容易記憶,從而假裝自己變聰明了。

Alex Paino:是的,我們不想只測“記憶能力”,我們追求的是泛化能力。

特別是“分布外泛化”(Out-of-distribution generalization)。所以我們對驗證集的要求非常高:哪怕它和訓練集有一點點重合,都會毀掉我們的 scaling laws 分析。

這點特別關鍵。

奧特曼:那你覺得目前我們手頭最好的測試集是哪一個?

Alex Paino:我們自己的內(nèi)部代碼庫。我們知道它不在外網(wǎng),很適合當驗證集。

奧特曼:這個驗證集也被用于很多實驗吧?它還是最穩(wěn)的嗎?

Dan Selsam:是的,依然是最有效的工具。我們甚至開玩笑說,一個模型的“靈魂”就藏在它壓縮“內(nèi)部代碼庫”的能力里。

奧特曼:這聽起來像是一種“自指的、遞歸的哲學問題”……

Dan Selsam:一個模型如果在“內(nèi)部代碼庫”上的 loss 很低,那你就能預測它未來會有怎樣的表現(xiàn)。這甚至可以告訴你,它在“哲學系研究生”的眼中,會展現(xiàn)出怎樣的細膩理解力(笑)。

奧特曼:確實不可思議!說到這里,我想問個“收尾大問題”:整個 GPT-4.5 的訓練,投入了巨大人力、時間、金錢……

它其實就是在驗證一件事:Scaling Laws 真的有效嗎?能走多遠?

現(xiàn)在看來,它確實有效,而且可能還能繼續(xù)有效很久。我已經(jīng)把 scaling laws 當成類似“量子力學”那樣的規(guī)律接受了—— 但我還是搞不懂,為什么 scaling laws 是宇宙的屬性?

Amin Tootoonchian:我可以先說一點。

Dan Selsam:從哲學角度講,“壓縮越多,智能越強”這件事是有堅實理論基礎的。但問題在于:為什么你訓練更大的模型、更久,它就能“壓縮”得更多?我最喜歡的一個解釋是:這個世界的數(shù)據(jù)中,有用的概念其實是稀疏分布的,而且這是一種冪律分布:比如最重要的前 100 個概念,只在大約 1% 的文檔中出現(xiàn)。這說明世界是“長尾”的。

奧特曼:那是不是說,如果我們能構(gòu)建一個完美的數(shù)據(jù)集,再配上高效算法,Amin 就可以回家退休了?

Dan Selsam:也許可以(笑)。這意味著,只要你在“數(shù)據(jù)選擇”上變得更聰明,就有可能獲得指數(shù)級的算力節(jié)省。

但現(xiàn)實中,我們還是主要在“被動地撈數(shù)據(jù)”。如果你只是海量采集數(shù)據(jù),你每擴充 10 倍的訓練規(guī)模,可能只能挖掘“尾部新增”的幾個知識點。而那個尾巴還在不斷延伸。不過——正如你說的,我們確實有可能用更聰明的方式去挖它。

奧特曼:我覺得我們就停在這吧,非常感謝你們。太棒了,很有趣!

 本文轉(zhuǎn)載自??51CTO技術棧??,作者:伊風


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
中文字幕一区二区三区四区不卡 | 日本va欧美va瓶| 久久精品久久精品亚洲人| 日本24小时在线高清视频| 国产剧情一区二区| 91超碰rencao97精品| 精品入口麻豆88视频| 欧美变态tickling挠脚心| 国产超碰在线| 91视频.com| 欧洲精品亚洲精品| 一区二区中文| 青青a在线精品免费观看| 激情欧美一区二区三区黑长吊| 欧美妇女性影城| 在线手机福利影院| 久久久亚洲精品石原莉奈| 一区不卡视频| 国产一区二区三区久久久久久久久 | 日本xxxxwwww| 大美女一区二区三区| 久久免费一区| 中文字幕人成人乱码| 日韩av电影院| 欧美亚洲国产日韩| 久久久免费在线观看| 国产麻豆一区| 在线日韩中文字幕| 成人做爰视频www网站小优视频| 日韩精品中文字幕一区二区三区| 欧美777四色影视在线| 一区二区日韩av| 一级特黄性色生活片| 国产成人av福利| 亚洲伊人婷婷| 毛片av一区二区三区| 亚洲国产欧洲综合997久久| 国产精品久久国产愉拍| 精品一区二区三区免费毛片| 亚洲天堂偷拍| 鲁丝片一区二区三区| 霍思燕三级露全乳照| 午夜影院网站| 亚洲欧美激情小说另类| 国产wwwxx| 国产性色一区二区| 午夜免费一区二区| 成人欧美一区二区三区在线播放| 999www人成免费视频| 国产无一区二区| 天天影视综合色| 国产精品久久久久久久久图文区| 日韩av手机版| 亚洲免费观看在线视频| 欧美日韩国产综合视频| 欧美伊人久久久久久久久影院 | 国产精一区二区三区| 神马影院午夜我不卡影院| 蜜桃久久久久久| 超碰在线免费观看97| 国产精品一卡二卡在线观看| 免费成人午夜视频| 国产日韩欧美高清| 国产女主播在线| 色婷婷综合久久久久中文| 黄网站免费在线观看| 亚洲成人av资源网| 亚洲一区导航| 国产九九精品视频| 日日夜夜一区二区| 免费看一级大黄情大片| 亚洲视频网在线直播| 蝌蚪视频在线播放| 亚洲免费av网址| 香蕉精品久久| 精品免费日产一区一区三区免费| 九九久久精品视频| 中文字幕有码av| 91久久精品日日躁夜夜躁欧美| 1024在线看片你懂得| 久久97精品久久久久久久不卡| 天天影视综合| 日本一区二区三区四区五区六区| 中文在线一区二区| www.久久热.com| 视频在线一区二区| 91亚洲国产成人久久精品| 亚洲精品国产精品久久| 国产精品无人区| 午夜精品一区| 欧美激情日韩图片| 一区二区三区国产在线| 日韩免费毛片视频| 黑巨人与欧美精品一区| 亚洲一区视频在线| 国产伦子伦对白在线播放观看| 久久久久久18| 亚洲国产日韩欧美一区二区三区| 日韩av高清在线看片| 午夜激情综合网| 亚洲天堂一区二区| 99国产视频| 久久伊人蜜桃av一区二区| 成人精品一区二区| 欧美精品在线网站| 蜜桃伊人久久| 69国产精品| 亚洲色图25p| 欧美fxxxxxx另类| 老头吃奶性行交视频| 欧美一区二区在线免费观看| 999久久久精品一区二区| 欧美日韩中文国产一区发布| 亚洲精品精品亚洲| h1515四虎成人| 欧美一区2区三区4区公司二百| 亚洲男人的天堂av| 青青热久免费精品视频在线18| 亚洲精品女av网站| 国产精品网站导航| 欧美舌奴丨vk视频| 精品亚洲第一| 色999日韩国产欧美一区二区| 成人在线超碰| 制服诱惑一区| 欧美日韩国产乱码电影| 青青草成人影院| 99sesese| 欧美成人精品在线观看| 激情综合色综合久久| 老司机午夜在线视频| 91免费福利视频| 国产精品免费网站在线观看| 成人黄色视屏网站| 亚洲国产综合自拍| 欧美夫妻性生活| 欧美日韩国产亚洲一区| 久草电影在线| 91国内在线视频| 久久欧美一区二区| 国精产品一区一区三区四川| 日韩av电影免费播放| 欧美高清视频不卡网| 黄色永久免费网站| 91免费观看在线| 另类中文字幕国产精品| 亚洲精蜜桃久在线| 欧美一区二区三区四区视频| 欧美激情偷拍| 国产毛片av在线| 国产精品成人一区二区三区| 日本高清不卡视频| 女人香蕉久久**毛片精品| 在线观看免费av网| 国产精品久久久久久久久久 | 成人va在线观看| 亚洲欧美电影| av久久久久久| 在线观看亚洲区| 国产成a人无v码亚洲福利| 超级白嫩亚洲国产第一| 永久免费精品视频网站| 精品中文视频在线| 成人免费看的视频| 精品一区91| 成人动漫h在线观看| 欧美一级大片在线观看| 一区二区三区四区五区视频在线观看 | 国产91在线视频观看| 精品久久久三级丝袜| 精品国产91亚洲一区二区三区婷婷| 精品久久99ma| 无码av免费一区二区三区试看| 精品少妇一区二区| 日韩中文字幕网址| 中文天堂在线一区| 欧美日韩一区二区三区不卡视频| 免费精品视频在线| 久久人人爽亚洲精品天堂| 在线视频亚洲一区| 中出福利视频| а√最新版在线天堂| 中文字幕视频免费在线观看| 亚洲图片123| 欧洲xxxxx| 亚洲不卡视频在线| 91麻豆一二三四在线| 天堂在线一区二区| 国产婷婷色一区二区三区| 一二三四区精品视频| 日韩一级高清毛片| 91久久夜色精品国产网站| 欧美欧美欧美| 超碰97在线免费观看| 欧美日韩伦理| 国产精品久久影院| 欧美成人免费小视频| 青青青国产精品一区二区| 曰本色欧美视频在线| 国产日本欧美一区二区三区在线|