編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
Gemini 3的逆襲,給業界帶來了太多的驚喜和問號。
與此前不同的是,業界到現在似乎也沒有逆向出Gemini3的秘方出來。
本周五,繼谷歌兩位大佬 Demis、Jeff Dean 播客訪談之后,終于有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。
Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou,在訪談中被主持人挖出來不少關于 Gemini 3 的消息。
比如,跟上一代相比,Gemini3 在模型架構的改動并沒有大到脫離了 transformer 架構,大體上還是能看出它是Transformer MoE架構的影子。并坦承,Gemini 3之所以提升如此大,是大中小多重因素疊加的結果。

再比如,他自曝說自己感覺不是在做大模型,而是在構建一個復雜的系統。
“這件事實際上會深刻改變研究方式,以及我們思考問題的方法?!?/p>
Bourjou 還特別提到了一種范式的變化:
過去,我們基本處在一個“數據幾乎無限”的規模化階段;而現在,我們正在進入一個“數據受限”的階段。
關于“預訓練到頭了嗎?Scaling Law 到頭了嗎?”Bourjou很果斷的給出了否定的答案,并指出,自己并沒有看到這條研究路線在短期內會走到盡頭?!爸辽?1 年內,它仍然會持續為我們帶來進展?!?/p>

這次訪談非常的technical,從預訓練、到后訓練、對齊、RL,再到Gemini3所用的訓練數據,再到最近大火的持續學習。都給出了自己的“研究品味”。
在他看來,工程與研究的邊界已經開始分不清了!
訪談中,他還聊到了,Gemini 3 在底層是如何構建的、從“無限數據時代”轉向“數據受限階段”的變化、DeepMind 內部研究團隊的組織方式,以及 AI 接下來可能會走向哪里。
下面是小編整理的采訪全文,enjoy!
Oriol 的“秘密配方”:更好的預訓練 + 后訓練
Matt Turk:大家好,今天的嘉賓是Sebastian Bourjou,Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一,同時也入選了 Meta 的研究員榜單。這一期節目格外特別,因為這是他第一次參加播客訪談。
我想從一條推文聊起。這條推文來自 Oriol Vinyals,他是 Google DeepMind 的研究副總裁、深度學習負責人,也是 Gemini 的聯合負責人之一。
在 Gemini 3 發布時,他說這個模型背后的“秘密”其實非常簡單:更好的預訓練,以及更好的后訓練。
圖片
考慮到 Gemini 3 相比之前的 SOTA 有這么大的躍遷,這樣的說法聽起來反而有點“樸素”。我很好奇,你怎么看?事情真的就這么簡單嗎?
Sebastian Bourjou:我不確定這算不算什么“秘密”。至少從我的視角來看,這其實挺正常的。
很多人會期待,從一個 Gemini 版本到下一個版本,一定會有某個“巨大變化”,突然帶來質的飛躍。但根據我的經驗,確實會有一兩個因素,比其他因素的影響更大一些,但真正決定結果的,往往是大量改進的累積。
Gemini 3 之所以明顯優于前幾代,并不是因為某一個單點突破,而是一個非常龐大的團隊,在非常多細節上持續改進,最終匯聚成了這個結果。
我想這也是一個會在后面反復出現的主題:像 Gemini 3 這樣的發布,本質上是一個大規模團隊協作的成果。
AI 進展為什么還沒有放緩
Matt Turk:從這個角度來看,這對我們理解 AI 的發展階段意味著什么?僅僅通過“調參數”“擰旋鈕”,就能帶來如此大的提升,這說明了什么?對未來的進展,我們應該有什么預期?
Sebastian Bourjou:我覺得有兩點。第一點是:通過這種方式,我們依然能夠取得如此顯著的進展,這件事本身就非常值得注意。而且,這種進展并沒有明顯放緩。
我們每天都會發現新的“旋鈕”、新的改進點,幾乎是日常層面的發現——這些都會讓模型變得更好。
第二點是:我們已經不再只是構建一個模型了。我們現在構建的是一個系統。
有些人會認為,我們只是訓練了一個神經網絡架構,僅此而已。但實際上,我們構建的是圍繞這個網絡的整個系統。這是一個整體工程,而不是單一模型。
模型真的在“變聰明”嗎?
Matt Turk:這是很多人心中的核心問題:這究竟意味著什么樣的智能進展?我們不一定非要討論 AGI,畢竟誰也說不清它到底指什么。但問題是:我們是否應該把這種模型進展,看作是真正通往智能的一條路徑?還是說,它更多只是為了在某個基準測試上取得好成績?
是什么讓你相信,模型的“核心能力”正在變得更強?
Sebastian Bourjou:從基準測試的角度看,成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式,它們本身也在變得越來越難。
即便是對我這樣有計算機科學背景的人來說,模型現在能回答的一些問題,我自己也需要花相當多時間才能解出來。
當然,這只是一個視角——基準測試視角。我們也會非常頻繁地做評估,對測試集保持嚴格隔離。但即便如此,人們還是會擔心過擬合,或者所謂的“刷榜”。
我個人并不太認同這些擔憂。
但真正讓我有信心的,是另一件事:內部使用模型的時間,在持續增加。每一代新模型,都非常明顯地展現出新的能力,它們在研究和日常工程工作中,能比上一代幫到我們更多。
這一點非常清楚。這說明模型不僅在分數上更好,而且在做真正有用的事情,能力也在實質性提升。
兩三年后:最先發生變化的是什么?
Matt Turk:作為一名深度參與其中的 AI 研究者,我一直很好奇:如果你把視角拉遠一點來看,現在的進展還會讓你感到意外嗎?從你的角度看,我們是明顯走在預期前面,還是基本符合當初的判斷,甚至有點落后?
Sebastian Bourjou:事后回看,說“我們在正軌上”其實很容易。但如果我對自己足夠誠實,我會說,我們確實走在了我當初預期的前面。2019 或 2020 年剛開始做大語言模型時,很難想象今天的規模,也很難想象模型現在能做到的事情。當年從 scaling law 的角度看,確實有人認為會走到這一步,但我不確定自己當時是否真敢下注,賭它會如此完整地實現。
接下來兩到三年,會發生什么?
Sebastian Bourjou:一個自然的問題是:如果我們假設未來五年的進展節奏,和過去五年差不多,那接下來會發生什么?我覺得未來幾年會非常有意思。
Matt Turk:那你怎么看短期內的變化?比如兩到三年內,AI 會不會做出全新的科學發現,甚至拿到諾貝爾獎?你覺得最近的方向會走向哪里?
Sebastian Bourjou:我覺得這是其中的一部分。在科學研究層面,DeepMind 一直在這方面投入很多,我也相信未來幾年我們確實有機會做出一些重大的科學發現。
但在我自己的日常工作中,不論是研究還是工程,我更興奮的是:這些模型如何幫助我們更快推進工作,同時也幫助我們更好地理解我們正在構建的系統,并進一步深化自己的研究理解。
圖片
Matt Turk:現在行業里有一個很大的話題:AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推,就會走向那種“AI 2027” 的斷點式場景。從一個非?,F實的角度看,你現在是如何使用 AI 的?你覺得兩年后會變成什么樣?
Sebastian Bourjou:我覺得重點不在“自動化”,而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。
AI 做 AI 研究:更快,但不是全自動
Sebastian Bourjou:在語言模型研究中,我們每天面對的是非常復雜、非常龐大的系統,尤其是在基礎設施層面。大量時間花在跑實驗、盯實驗、分析數據、整理結果上,真正有價值的部分是形成假設和設計新實驗。后面這兩件事,人仍然會深度參與;而前面的部分,在接下來一年里,隨著更具 Agent 特性的工作流成熟,會被顯著加速。
前沿實驗室:相似的路,分叉的研究樹
Matt Turk:你覺得各家前沿 AI 實驗室,本質上是不是都在做同一件事?作為行業觀察者,我們會感覺每隔幾周就冒出一個“驚艷模型”,大家反而有點被寵壞了。比如 Gemini 3 剛發布沒多久,幾乎同時 GPT-5.2 也出來了。你怎么看這種現象?最終會不會有人明顯跑出來,還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局?
Sebastian Bourjou:先說第一點,各家確實有很多相似之處,底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型,我也不會感到太意外,但在此之上,大家確實在做不同方向的專精。不同公司會探索不同的研究分支。比如從歷史上看,DeepMind 在視覺和多模態方向一直很強,這一點現在仍然很明顯,無論是用戶使用方式還是 benchmark 表現。推理能力也是類似的情況,OpenAI 首先推出了相關模型,但我們內部其實也有對應的研究線。
為什么在Google 做研究很有吸引力規模、資源與潛在顛覆
Sebastian Bourjou:至于第二個問題,我不確定有沒有標準答案。很現實的一點是:今天要推動 Gemini 這種級別的模型進展,確實需要非常大的團隊和資源。但這并不意味著當前路徑是最優的,未來完全可能出現顛覆性研究,讓小團隊也能實現突破。
這也是我很享受在 Google 的原因之一。這里一直有大量探索性研究,研究廣度非常高,而且很多工作是和 Gemini 并行進行的。這些成果最終也能被吸收進 Gemini,形成正向循環。
Transformer 之后,會不會有突然的斷裂式創新?
Matt Turk:在 DeepMind 或整個行業里,是否存在一些半公開甚至完全保密的團隊,在研究“后 Transformer”架構,有一天突然公布成果,讓所有人都措手不及?
Sebastian Bourjou:我相信是有的。在 Google、在 DeepMind 內部,確實有人在研究模型架構層面的新方向。至于這些研究是否最終會成功,很難說——這就是研究本身的特性。
DeepMind 的優勢:研究 × 工程 × 基礎設施
Matt Turk:真正能成功的研究想法其實非常少。所以在這個過程中,一家公司相對另一家的核心優勢,往往歸結為“人”的質量。
回到我剛才提到的那條推文,Demis Hassabis 轉發并評論說,真正的秘密在于研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”?你們做的是完整技術棧。
Sebastian Bourjou:這確實非常有幫助,我認為這是一個重要因素。另外,“研究”和“工程”之間的邊界,也在不斷變得模糊。
在今天這種超大規模系統中,研究看起來越來越像工程,工程也越來越像研究。這種心態在 DeepMind 過去幾年變化很大,尤其是在 Gemini 項目中,現在更像是“研究工程”。基礎設施同樣關鍵,我們構建的是極其復雜的系統,可靠、穩定、可擴展的基礎設施,直接決定研究和工程能否不被拖慢。
Matt Turk:Gemini 3 是在 TPU 上訓練的,對嗎?不是用英偉達的芯片。這基本算是完全垂直整合了。
進入Gemini 3 深水區之前,先聊聊你
Matt Turk:在深入 Gemini 3 之前,我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一,這具體意味著什么?然后我們再談談你的背景和經歷。
Gemini 3 預訓練負責人,到底在做什么?
Sebastian Bourjou:我是 Gemini 預訓練的幾位負責人之一,這個角色其實包含很多方面。一部分是研究本身,目標是讓模型變得更好;但現在更多是設計實驗、和團隊一起評估結果,而不是自己親自跑實驗。
另一部分——而且我覺得很有意思——是協調與整合?,F在預訓練團隊已經非常大了,很難精確統計,但日常參與的人大概在 150 到 200 人之間,涵蓋數據、模型、基礎設施等多個方向。
大團隊協作,才是長期效率的來源
Sebastian Bourjou:把這么多人的工作整合成一個統一、可推進的系統,本身就是一件非常復雜、也非常耗時的事情。但我認為這是最重要的,因為真正推動長期進展的,是讓所有人都能持續產出,而不是只讓一小撮人跑在最前面。短期或許能靠小團隊突進,但長期來看,真正成功的路徑是大規模協作與整合。
“逆向”頂級AI 研究者的成長路徑
| 天才往往搬家
Matt Turk:我一直很好奇,你是在哪里長大的?很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自哪里,又是如何走到今天的?
圖片
Sebastian Bourjou:我在歐洲各地長大,搬過很多次家。我出生在荷蘭,7 歲時搬到瑞士;我父親是瑞士人,母親是德國人。我在瑞士完成了大部分中小學教育,用的是法語和德語。15 歲左右我搬去了意大利,在那里完成了高中,直到 19 歲。原本我打算去蘇黎世聯邦理工學院(ETH)讀大學,但有一天我隨手查了下大學排名,看到了劍橋,就想“那我也申請一下試試吧”。幾個月后我收到了錄取通知,于是去了劍橋,在計算機實驗室完成了本科和碩士。
圖片
| 從小就擅長數學和編程
Matt Turk:你小時候就是那種數學特別強、偏計算機的孩子嗎?
Sebastian Bourjou:我父親有技術背景,所以我大概在 10、11 歲時就跟著他開始寫點程序。我一直挺喜歡這些東西,在學校里數學和理科也比較輕松。高中時我幾乎不用怎么復習數學考試,也能考得不錯——不過這在大學里就完全不成立了。
| 從學校到DeepMind:一次勇氣,換一次機會
Matt Turk:很好。那你從學校走到今天這個位置,中間經歷了怎樣的路徑?
Sebastian Bourjou:說實話,這里面有一點運氣成分。我碩士期間有一門課的老師,剛好也是 DeepMind 的研究員。最后一節課結束時,我心想不如直接問他要個內推,最壞的情況也就是被拒絕。
我就鼓起勇氣走過去問了,他說:“可以,把你的簡歷發給我,我看看能做什么。”這就是我拿到 DeepMind 面試的起點,大概是在 2018 年。畢業后我加入了當時還沒并入 Google 的 DeepMind,職位是研究工程師。
| 從強化學習開始,轉向真實世界數據
Matt Turk:你最開始做的是什么?又是怎樣一步步走到 Gemini 3 預訓練負責人的?
Sebastian Bourjou:剛加入 DeepMind 時,它以強化學習聞名,所以我一開始也做的是 RL。具體來說,是在 Atari 環境里訓練無監督網絡,學習關鍵點,讓智能體玩游戲。我做了大概半年,但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界數據有關、能產生現實影響的事情。我本質上喜歡“造東西”,而且是能真正跑起來的東西,對純學術研究的興趣反而沒那么強。這推動我轉向表征學習(representation learning),訓練能支撐多種任務的通用表征網絡。
這里,有個我經常跟團隊講的小故事:我最早參與的項目叫“從真實世界數據中進行表征學習”,當時必須特意強調“真實世界數據”,否則大家默認你是在做合成環境或合成數據——而現在,這個前提已經完全反過來了。
| 從表征學習到Transformer 和 LLM
Sebastian Bourjou:這也是我第一次系統性地進入 Transformer 和大語言模型方向。當時我們在研究像 BERT、XLNet 這樣的模型,重點是如何學到更好的表示,以及如何改進這些表示。這為我后續進入大規模預訓練打下了基礎。
Matt Turk:后來你參與了 RETRO,對嗎?可以講講那段經歷嗎?
Sebastian Bourjou:在那之后,我們開始真正推進大語言模型的規?;?。最早是 Gopher,那應該是 DeepMind 發布的第一篇 LLM 論文,當時團隊已經有 10 到 12 個人了。從那一刻起,就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。我們訓練了第一個 dense Transformer,大約 2800 億參數、3000 億 token。今天回看,那些做法肯定不會再用,但當時是一次非常寶貴、也很有趣的學習過程。
圖片
兩條預訓練的研究線
| Chinchilla:重新思考“怎么用算力”
Sebastian Bourjou:之后分化出了兩條重要的研究線:Chinchilla 和 RETRO。在 Chinchilla 中,我們重新審視一個核心問題:在固定訓練算力下,模型規模和數據規模該如何平衡?結論是,數據規模應該比之前認為的更快增長,而不是一味放大模型。有意思的是,這個結論在今天仍然非常關鍵,因為它直接影響模型部署后的推理成本,以及實際使用有多昂貴。這并不是一個“歷史問題”,而是一個持續影響工程決策的結論。
| RETRO:把“記憶”外包給系統
Sebastian Bourjou:另一條研究線是 RETRO,更偏架構創新。核心思想是:與其把所有知識都塞進模型參數里,不如讓模型在訓練和推理時,能從一個大型文本庫中檢索信息。也就是把“記憶”部分,從參數中解耦出來。
“研究品味”
Matt Turk:你剛才用了一個詞——“研究品味”(research taste),我覺得特別有意思。
你會如何定義它?它對研究者來說有多重要?
Sebastian Bourjou:它在今天非常重要,但也確實很難量化。第一點是:你的研究不是孤立存在的,它必須能和其他人的研究很好地協同、被整合進系統里。
好想法,如果拖慢別人,就不是好權衡。假設你提出了一個改進,讓模型性能提升了,但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡,因為你會拖慢其他人的研究節奏,而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。
第二點是對復雜度保持警惕。復雜度本身是主觀的,但我們始終有一個“復雜度預算”和“研究風險上限”,超過之后,系統就會開始失控。
因此,我們常常會犧牲一點性能,換取更低復雜度的方案,以便未來能走得更遠。
圖片
Matt Turk:聽起來研究品味里也包含一種直覺判斷——什么可能行得通,什么不值得繼續投入。在算力有限的前提下,這種直覺是不是也很關鍵?
Sebastian Bourjou:是的,這一點非常重要,而且不同人差異很大。經驗在這里非常有幫助,而我們在研究層面確實受限于算力。
多數研究都會失敗,這本身就是現實
Sebastian Bourjou:研究的關鍵在于選擇探索哪一條“研究樹”的分支,以及在這條分支上該做哪些實驗。而且要知道,大多數研究想法都會失敗,你需要判斷什么時候該停下來、什么時候值得繼續推進。在深度學習中,負結果往往并不代表“不可能”,而是“你還沒把它做對”。
圖片
修復、探索,如何平衡?
Matt Turk:既然談到研究組織方式,我們再深入一點。一個典型的權衡是短期和長期之間的取舍,你們是怎么平衡的?
Sebastian Bourjou:這是我花很多時間思考的問題。一方面,總有一些明確的“關鍵路徑”問題,比如模型某個部分明顯不夠好,這些我們會優先修。這些修復是相對安全的投入,而且往往能直接提升模型。
更重要的是,那些當前看起來“不夠完美”的地方,往往會在模型規模變大、能力增強后放大成大問題。所以在早期就非常嚴謹地處理這些問題,其實是在為未來降風險。
圖片
另一部分,則是更探索性的研究,可能會影響下一代或下下代 Gemini,但尚未被驗證。這兩者的平衡并沒有固定公式,也和階段有關。在擴容階段,探索會多一些;在發布前,則高度聚焦執行與去風險。
研究vs 產品壓力
Matt Turk:在類似的維度上,還有研究與產品目標之間的張力。在激烈競爭中,是否會有“必須贏某個榜單”的現實壓力?
Sebastian Bourjou:在 Google,其實這種壓力相對很少。因為管理層大多有研究背景,他們很清楚:你可以短期“刷榜”,但真正重要的是研究本身是否走在正確方向上。至少對我個人來說,日常工作中幾乎感受不到這種壓力。
DeepMind 的組織結構是怎樣的?
Matt Turk:DeepMind 的團隊是如何組織的?你提到預訓練有幾百人,那是否還有后訓練、對齊等不同團隊?
Sebastian Bourjou:有預訓練團隊,也有后訓練團隊。預訓練涵蓋模型、數據、基礎設施和評測,而評測本身常被低估,但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。
Gemini 3:架構上基本仍然是Transformer
Matt Turk:好,我們稍微換個話題。按照之前的約定,我們來深入聊聊 Gemini 3 的內部設計。
從用戶角度看,Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策,解釋了這種變化?
Sebastian Bourjou:從高層來看,架構并沒有發生根本性變化。更多是多個改進點疊加在一起,最終帶來了顯著提升。整體上,它仍然是基于 Transformer 的混合專家(MoE)架構。
圖片
Matt Turk:能否用更教學一點的方式,解釋什么是 MoE 架構?
Sebastian Bourjou:Transformer 主要有兩個模塊:第一個是注意力模塊,負責在不同 token 之間混合信息;
第二個則是前饋模塊,則提供模型的“記憶”和計算能力,它們是并行作用在單個 token 上的。在原始 Transformer 中,前饋模塊是一個 dense 的全連接網絡。
而MoE 的核心思想是:將計算量與參數規模解耦,通過路由機制,動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下,提升模型容量。
圖片
原生多模態,真實成本如何
Matt Turk:Gemini 是原生多模態模型。在實踐中,這對模型來說到底意味著什么?
Sebastian Bourjou:這意味著我們不是為圖像、音頻、文本分別訓練不同模型。而是同一個神經網絡,同時處理所有模態的信息。
Matt Turk:這種原生多模態在成本上會更貴嗎?比如 token 成本?
Sebastian Bourjou:這是個好問題,成本主要體現在兩個方面。第一是研究復雜度,多模態交互會增加系統復雜性,需要額外思考和設計。第二是計算成本,圖像輸入通常比純文本更大,但這也是效率優化的重要研究方向。

Scaling Law 真的“死”了嗎?
Matt Turk:回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”,Gemini 3 是否給出了反證?
Sebastian Bourjou:是的,這類討論對我來說一直有點奇怪,因為它們和我的實際經驗并不完全一致。我們看到的情況是:Scaling在預訓練中依然非常重要,也是讓模型變得更強的關鍵因素之一。但問題在于,過去人們有點高估了規模這一維度。
規模確實能讓模型變好,而且它的優勢在于結果相對可預測——這正是規模定律告訴我們的:當模型變大時,性能大致會提升多少。但這只是其中一部分。
另外兩大關鍵因素是模型架構和數據層面的創新,它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規?!备匾?/span>
當然,規模依然是一個重要因素,對吧?而且我們這里討論的是預訓練階段。因為今年我們看到的是:后訓練階段有規模化的 RL,推理時有規模化的 test-time compute 等等。但在預訓練中,你們看到的情況似乎是,不僅 scaling loss 沒有放緩,甚至還有加速的跡象——我的理解是,這主要來自數據和不同架構的變化,對嗎?
Sebastian Bourjou:我覺得更準確的說法是:這些因素是疊加在一起發揮作用的。規模只是其中一個軸,而模型本身和數據的改進,同樣會推動整體性能提升。
Matt Turk:當你在模型架構層面做出改進時,通常意味著什么?是不是用同樣規模的數據,模型能得到更好的結果;或者反過來,用更少的數據,就能達到上一代模型的效果?
Sebastian Bourjou:對,這正是第一個層面的含義。架構改進本質上提高了數據效率。不過就數據體量而言,我們現在使用的數據規模,依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比,但那類高層討論往往依賴太多假設。至少在一階近似下,看起來我們確實比人類“喂”了模型更多數據。
圖片
未來研究方向
Matt Turk:在整個預訓練進展上,除了規模之外,你在行業里還對哪些方向感到興奮?
Sebastian Bourjou:一個明顯的方向是長上下文。在 Gemini 1.5 中,我們在長上下文能力上實現了一次很大的躍遷,這直接支撐了如今模型和智能體處理大型代碼庫等復雜工作的能力。接下來一年,我預計會看到更多關于“如何高效支持長上下文”的創新,以及進一步拉長上下文本身的研究。
圖片
此外,在注意力機制上,我們最近也有一些很有意思的發現,可能會深刻影響接下來幾個月的研究方向。整體來看,進步往往來自大量中小改進的疊加:修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究,最終一起推動整體向前。
長上下文會取代RAG嗎?否
Matt Turk:這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事;而現在你在 Gemini 3 上,面對的是超大規模數據和極長上下文窗口。你覺得這種范式會不會逐步消解 RAG、搜索這些機制的必要性?
備注:RETRO,DeepMind 在 2021–2022 年提出的一種語言模型研究方向,全稱通常被稱為 Retrieval-Enhanced Transformer。
Sebastian Bourjou:RETRO 的核心并不是讓模型變小,而是“檢索而不是存儲”:讓模型在推理時去取信息,而不是把一切都壓進參數里。這個理念今天依然成立。
過去,預訓練的迭代周期很長,風險和成本都很高;而 RAG 或搜索更多發生在后訓練階段,迭代更快、效果也很強。從長期來看,我相信真正的答案是把檢索和搜索以可微的方式納入訓練本身——可能通過預訓練,或未來的其他范式。RL 的規?;蛟S只是一個開端,架構層面還有很多事要做,但這會是未來幾年逐步展開的過程。
后訓練的Scaling Law跟預訓練很類似
Matt Turk:我理解你們的觀察是:在預訓練階段,規模依然非常關鍵,但今年大家又在后訓練階段放大了 RL、測試時計算等變量。
那在預訓練中,我們看到的不只是 loss 放緩,甚至還有加速現象,這是不是更多來自數據和架構的變化?
Sebastian Bourjou:可以這樣理解:這些因素是疊加起作用的。規模只是其中一個維度,模型架構和數據同樣會顯著提升性能。有時候,架構或數據層面的創新,帶來的收益會超過單純繼續放大規模;但在某些階段,直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至于 RL 和 RL 的規?;?,其實我們正在看到很多和早期預訓練階段相似的現象,只是現在可以把當年的經驗直接遷移過來。
Gemini3一開始就是多模態數據混合體,合成數據明顯增加了
Matt Turk:說到數據,Gemini 3 的預訓練數據大致是怎樣的組合?你們之前好像發布過 model card,透露過一部分信息。
圖片
Sebastian Bourjou:整體是多模態、從一開始就如此設計的數據混合體,來源非常多樣。一個經常被問到的問題是:我們會不會很快用完數據?一方面是算力是否不足,另一方面是數據是否不足。今年合成數據的使用明顯增加了,你怎么看它的價值和邊界?
圖片
Sebastian Bourjou:合成數據確實很有意思,但使用時必須非常謹慎,很容易用錯。常見做法是先用一個很強的模型生成合成數據,再用小規模實驗驗證它是否真的有效。一個更難的問題是:能不能用合成數據,訓練出一個比“生成這些數據的模型”本身還要更強的模型?這是我們投入大量精力研究的方向。
圖片
至于“數據是否用完了”,我個人并不這么認為。我們研究中發現,更可能發生的是一種范式轉變:過去我們默認處在“數據幾乎無限”的階段,現在正在進入“數據有限”的階段,這會徹底改變研究思路。有點像 LLM 出現之前,大家在 ImageNet 等小數據集上的工作,很多當年的方法又重新變得有價值。
圖片
范式正在轉變:數據有限的情況下如何更好
Matt Turk:行業里還有一個反復出現的概念:基于“推理軌跡”的訓練,也就是要求模型展示中間思考過程,再用這些過程訓練下一代模型。你怎么看這個方向?
Sebastian Bourjou:具體細節我不能展開評論,但你的問題方向確實很對。這和你剛才問的合成數據高度相關。更宏觀地看,一個核心主題正在浮現:模型如何在有限數據條件下學習得更好。這里的“有限”并不一定是更少,而是數據量是有上限的。從這個角度看,模型架構研究本身,正是在回答你提到的那個問題。
Sebastian Bourjou:還有一點我想強調:大家經常只談模型架構,但基礎設施、數據和評測同樣關鍵。評測尤其困難,在預訓練階段更是如此。
一方面,我們用來做評測的小模型,必須能預測大模型的表現;另一方面,預訓練后的模型還會經歷后訓練,評測指標也要能反映最終使用效果。內部評測體系在這里非常重要,因為外部基準很快就會被“污染”,一旦訓練數據中泄漏了評測內容,你幾乎無法察覺。真正防止自欺的方式,就是維護嚴格隔離的內部評測集。
圖片
為什么對齊不發生在預訓練?
Matt Turk:那對齊更多是在預訓練階段考慮,還是主要發生在后訓練?
Sebastian Bourjou:我會說大部分是在后訓練階段,但確實有一些部分和預訓練相關,具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。
Matt Turk:一個很直觀的問題:如果核心數據集來自互聯網,而互聯網里充滿糟糕內容,那對齊的第一步是不是干脆不把這些東西喂給模型?
Sebastian Bourjou:這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事,但在更底層的層面,模型至少要“知道”這些東西是什么,才能學會避開它們。否則當用戶提到某些糟糕內容時,模型甚至無法判斷那是什么,也就談不上明確拒絕。
Deep Think 與模型的關系
Matt Turk:我們來聊聊 Deep Think 吧,也就是在 Gemini 3 發布幾天后推出的那個“思考模型”。它是一個獨立模型,還是同一個模型的不同形態?應該怎么理解?
Sebastian Bourjou:這個我不能講太多。至于你提到的,當模型“思考”十幾秒甚至更久時,背后發生了什么,其實行業里已經討論過不少了。本質上,是讓計算不只發生在模型深度上,也發生在序列長度上:模型會生成假設、測試假設,調用工具、發起搜索,然后最后給出一個確定性的回答。圍繞“思維鏈”的這種范式,已經在行業里逐漸形成共識。
編程Agent
Matt Turk:那從 agent 的角度呢?比如 Google 的 Anti-Gravity,你覺得它有意思的地方在哪?
Sebastian Bourjou:這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的,比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說,感知和視覺能力變得非常關鍵,因為模型現在要直接和屏幕交互,屏幕理解做不好,agent 基本無從談起。
Matt Turk:Anti-Gravity 里還有個“vibe coding”的說法,幾乎就是“憑感覺寫代碼”。這種“vibe”是預訓練出來的,還是后訓練?怎么把“感覺”塞進模型里?
Sebastian Bourjou:這個問題你問五個研究員,大概會得到五種答案。確實存在一種“模型氣場”的說法,歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述,但直覺上,預訓練在塑造這種“感覺”上起的作用,可能比后訓練還大。如果專指 vibe coding,我會更傾向于把它看作 RL scaling 和后訓練的結果:你可以收集大量相關數據,系統性地把這種行為教給模型。
持續學習的熱門方向,長上下文、大中小疊加、降低成本
Matt Turk:拉遠一點看。最近一年在很多會議上,大家都在談“持續學習”。從預訓練角度看,你怎么理解它?如果持續學習真的成立,對重新訓練意味著什么?
Sebastian Bourjou:持續學習,本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破,昨天訓練好的基礎模型并不知道它。近幾年更多進展發生在后訓練階段,比如通過搜索工具即時獲取新信息。RETRO 做的事情也是類似的:把知識外部化,用檢索配合推理。在預訓練側,一個相關方向是長上下文。如果上下文不斷擴展,模型就能在一次交互中吸收越來越多信息,某種意義上形成“準持續學習”。更激進的設想是改變訓練算法,讓模型持續地從真實世界的數據流中學習,但那是更大的范式轉變。
圖片
Matt Turk:那你現在覺得,研究里哪些方向最熱、最有意思?
Sebastian Bourjou:依然是大量中小改進的疊加,這在歷史上一直是進步的主要來源。具體來說,長上下文架構、注意力機制,以及從“無限數據”轉向“有限數據”這一范式變化,都會帶來很多新的研究問題。另一條線是使用成本:模型被越來越多的人使用,預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時,讓模型更便宜、更省資源,這會反過來影響預訓練設計。
條件已經成熟:既要做研究,也得理解系統
Matt Turk:如果有學生或博士生在聽這期節目,想在幾年后做到你現在的位置,你覺得他們該關注什么問題?
Sebastian Bourjou:一個越來越重要的能力,是既能做研究,又理解系統。我們現在構建的是非常復雜的系統,能從 TPU 到模型研究全鏈路理解整個棧,是一種“超能力”。這樣你能看到不同層之間的空隙,也能推演一個研究想法對系統底層的影響。
圖片
另外,我個人依然對檢索方向很感興趣。RETRO 當年還不成熟,但條件正在變化。未來幾年,這類方法進入頂級模型并非不可想象。
Matt Turk:那為什么當時不成熟?現在又為什么可能改變?
Sebastian Bourjou:主要還是復雜度和迭代效率的問題。很多能力通過后訓練和搜索就能更簡單地實現,迭代也更快。但隨著后訓練和 RL scaling 的發展,重心可能再次向預訓練側回擺。
專用模型被過度投資了
Matt Turk:你覺得現在 AI 領域有沒有被過度投資的方向?
Sebastian Bourjou:情況已經好很多了。兩年前還有很多人在做高度專用模型,但這些任務往往很快就會被通用模型覆蓋?,F在更多人接受一個判斷:對大多數通用任務,與其做專用模型,不如等下一代通用模型。
圖片
這也讓“如何使用模型”“如何構建可靠的 harness”“如何容錯和恢復”變得越來越重要。
創業者的機會
Matt Turk:那對創業者呢?基礎模型越來越強,覆蓋面越來越廣,留給初創公司的空間是不是在縮?。?/span>
Sebastian Bourjou:可以回頭看看一年前模型能做什么,再看看現在能做什么,然后外推。我認為模型正在快速進步的方向,短期內還會繼續;而進步緩慢的地方,反而可能是更有意思的機會。暫時我沒有具體案例,但這是一個總體判斷。
未來一年,基礎模型不會放緩
Matt Turk:最后一個問題。未來一兩年,從你個人的角度看,最讓你期待的是什么?
Sebastian Bourjou:我最喜歡的一點,是每天能和很多非常聰明的人一起工作,不斷學到新東西。這是驅動我前進的核心動力。同時,就像我反復說的,還有太多可以改進的空間。我暫時看不到這條路的盡頭,也不覺得未來一年會放緩。能親眼看到它能走多遠,本身就非常令人興奮。
圖片
Matt Turk:太好了,這正是一個完美的收尾點。Sebastian,非常感謝你來做客播客。





























