編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
“與AGI太過遙遠的炒作相比,我非常喜歡這種 3 到 5 年的時間窗口。”
“AI 現在最大的問題,已經不是不夠聰明,而是太難真正落地。”
這些非常務實的觀點,并不是出自AI懷疑論者。相反,它出自硅谷圈內那位“工程與學術”的雙修神話: Jeff Dean。這位大神身兼多個要職,Google DeepMind 和 Google 研究院首席科學家,同時還是 Gemini項目聯合技術負責人,更是 TPU 與 Transformer 背后最核心的工程與研究推動者之一。
ps:Jeff Dean 還有一份終身級榮譽:Google 內部最高級別的技術職位——Senior Fellow,這是一種公司技術體系中的“終身級”認可,毫不夸張的說,可以理解成 Google 帝國的“終身院士”。
圖片
上周末,很少露面公開演講的大神 Jeff 接受了一場播客邀約。
在這場對談中,Jeff 并沒有討論參數規模、模型排名,甚至很少談“下一個突破”。他反復強調的,是一個聽起來不那么性感、卻決定 AI 能否真正改變世界的問題:系統、成本、數據與現實約束。
他心中的“登月級”AI項目,不是奧特曼那般的“星際之門”,而是潤物無聲的“AI醫療”。
以醫療為例。外界常常把希望寄托在“更強的模型”上。但 Jeff Dean 很直白的表示,真正的難題在于,醫療數據分散在無數系統里,格式混亂、不可流動,還被隱私、法規和責任機制牢牢鎖死。
你不可能把數據集中起來訓練一個“全知模型”,AI 只能在數據原地學習。這讓聯邦學習、隱私計算從“研究方向”,變成了現實世界的必選項。
當談及未來最值得投入的方向時,Jeff Dean 的答案也明顯出人意料。他沒有押注更大的模型,而是把注意力放在了更低延遲、更高能效、更低成本的推理系統上。
他甚至回溯到 2013 年 TPU 誕生時那張著名的“餐巾紙草圖”,直言如果今天重畫一次,首要任務已經不再是把算力堆到極限,而是比現在推理延遲要低得多的AI系統。
這場采訪還揭開了 Google 內部少為人知的一角。比如,為什么 Gemini 的“秘密武器”不會公開,但大量實驗性想法卻持續向學術界釋放;
再比如,為什么 Google 內部研究常常被認為“領先學界一年”;以及那些尚未進入產品、卻已經在挑戰 Transformer 邊界的架構探索。
最大的感受是,Jeff Dean 并不否認模型會繼續進化。但他不斷把問題拉回到一個更冷靜的坐標系中:當 AI 足夠強之后,它能否在真實世界的規則、成本和系統中站得住?
這可能是未來3~5年內,AI世界最為激烈的分水嶺之戰。
期間還有不少谷歌內部的技術猛料。比如內部已經基于TPU構建了一條成熟路徑,后續可能會開放,再比如下一代Pixel手機新技術的發布節奏等等。
以下是小編對這場對談中最值得關注的觀點與細節的梳理,信息密度很高,建議收藏細讀。
第七代TPU厲害之處
主持人:Jeff Dean,感謝你來到周日的圣地亞哥,就在 NeurIPS 會議中心前。你是 Google 的首席科學家、Kaggle 負責人,最近你們剛剛發布了新一代 TPU 芯片。我們來聊聊這件事吧——第七代 TPU。它有什么特別之處?
Jeff Dean:和以往每一代 TPU 一樣,新一代都比上一代更強,有很多新的能力。它可以被連接成我們稱之為“Pod”的超大規模配置,每個 Pod 大概有 9216 顆芯片左右。在性能上,尤其是在像 FP4 這樣的低精度浮點格式下有顯著提升,這對大模型訓練、推理以及很多相關場景都非常有幫助。所以我們對這一代 TPU 非常興奮。
TPU是內部推理需求推動的
主持人:如果把視角拉遠一點,Google 最初是為了內部需求開始做 TPU 的。作為全球領先的 AI 應用和研究機構之一,對整條垂直整合技術棧的掌控是最初的動機。后來你們又把這些能力對外開放,進入了加速器的全球競爭市場。
現在很多人都在期待 TPU 形成一個巨大的外部市場。站在你的角色上,你怎么看 Google 內部使用 TPU 的目標,和在市場中通過 TPU 賦能數以百萬、甚至數十億用戶之間的關系?
Jeff Dean:TPU 項目的起點確實是內部需求,而且最初主要聚焦在推理上。早在 2013 年,我們就意識到深度學習方法會非常成功。每當我們用更多數據訓練更大的模型,在語音、視覺等任務上的效果都會更好。
我當時做了一些粗略計算:如果我們想把一個計算量大得多、但效果更好的語音模型,提供給一億用戶每天使用幾分鐘,會發生什么?結果非常嚇人。如果用 CPU,我們幾乎需要把 Google 全部的計算機數量翻一倍,才能上線這個改進版模型。于是我們意識到,如果能做專用硬件,針對機器學習計算——本質上是密集、低精度的線性代數——就能實現數量級更高的效率。事實證明,第一代 TPU 在能效上比當時的 CPU 或 GPU 高出 30 到 70 倍,速度也快了 15 到 30 倍。
這個想法是在 2013 年形成的,芯片在 2015 年進入數據中心,我們也發表了論文,那是在 Transformer 出現之前。當時我們主要關注語音識別和視覺里的卷積模型,后來在最后關頭對 TPU v1 做了一點設計調整,讓它支持 LSTM,當時這在語言建模中很流行,也讓我們能支持機器翻譯任務。之后的 TPU 版本,重點轉向更大規模的系統,不再只是單張 PCIe 卡,而是完整的機器學習超級計算機,包括最新的 Ironwood。每一代在能效、單位成本性能等方面都有巨大提升,讓我們能跑更大規模的訓練任務,也能為更多用戶提供服務。
圖片
硬件先于軟件,問題在于是否真的重要
主持人:Transformer 架構本身也誕生于 Google,時間線和 TPU 非常接近,只是 TPU 更早一些。你覺得這種應用架構的爆發,與 Google 擁有垂直整合硬件棧之間,是否存在某種“協同設計”的偶然性?
Jeff Dean:每一代 TPU,我們都會盡量利用軟硬件協同設計的機會。我們有很多研究人員在思考:兩年半到六年之后,我們可能會運行什么樣的機器學習計算?這正是硬件設計中最難的地方——要在一個變化極快的領域里做預測。
圖片
這并不容易,但如果你有足夠多的人對趨勢有所判斷,就可以在芯片里加入某些硬件特性或能力。如果將來它真的變得很重要,那么硬件已經準備好了;如果沒有,那最多只是占用了一小塊芯片面積。關鍵在于,一旦這件事真的變得重要,你的前期投入就能發揮巨大價值。
TPU之上一條最成熟的路徑
主持人:這本質上是在對整個機器學習領域做一次前瞻預測。如果只能選一個人來做這件事,“計算機科學界的 Chuck Norris”大概就是你了。
科普下:Chuck Norris 是值:“強到不講道理、近乎傳說級的存在”。
Jeff Dean 幾乎參與或主導了 Google 過去二十多年最底層、最關鍵的系統:
MapReduce、BigTable、Spanner、GFS、TensorFlow、TPU、Transformer 落地體系、Gemini 的系統棧……
很多人一輩子能參與其中一個,就已經是職業巔峰。
更堪稱天才的是,Jeff 是一位工程與學術雙修的“不世出”的大家。
你在 Google 的履歷,也延續了一種傳統:為內部需求發明系統。
Google 是世界上最擅長構建大規模系統的公司之一,很多成果后來都走向了世界,比如 Google 文件系統,再到 TPU 架構,Transformer 的思想最初是論文,但現在已經徹底改變了世界。隨著 Ironwood 的出現,你覺得是否到了一個拐點,讓全世界都能真正享受到過去只有 Google 才擁有的這些優勢?站在你的角度,這種感覺應該很特別。
Jeff Dean:我們使用 TPU 已經差不多十年了,一直非常滿意。軟硬件協同的特性,讓它們非常適合我們要運行的機器學習計算。與此同時,我們也通過 Cloud TPU 項目對外提供這些資源很多年了,現在有大量客戶在用 TPU 做各種事情。我們在 TPU 之上構建了很多軟件層,讓它們用起來非常方便。
圖片
最成熟的一條路徑,是在 Pathways 之上運行 JAX。Pathways 是我們內部構建的系統,目前也在探索是否向云端客戶開放。再往下是 XLA,這是一個帶有 TPU 后端的機器學習編譯器。對 Pathways 來說,這意味著我們所有的 Gemini 開發、研究以及大規模訓練任務,基本都跑在這套技術棧上。
Pathways 大約是七年前開始構建的,它能給你一種“單一系統鏡像”的錯覺:你只運行一個 Python 進程的 JAX 代碼,但看到的不是單個 TPU 節點上的幾個設備,而是仿佛直接擁有兩萬個設備。系統會在底層自動處理數據傳輸機制和網絡選擇,一切都能自然地運轉起來。
同一個 TPU Pod 內,會使用高速互連;跨 Pod 的通信則走數據中心網絡;如果是跨城市的 Pod,就會使用長距離鏈路等。實際上,我們已經在運行非常大規模的訓練任務:由一個 Python 進程同時驅動分布在多個城市的多個 TPU Pod。
為什么要資助學術研究?因為AI建立在研究之上
主持人:很好。那我們換個話題。你最近經常談到學術研究經費的現狀,你想傳達的核心信息是什么?
Jeff Dean:我和同事 Hoza、Partha Rangadath,以及華盛頓大學的 Magda Balazinski,最近在 ACM《Communications》的一期專題中共同發表了一篇文章,那一期專門討論學術研究的影響。在我們的部分里,我們回顧了 Google 這家公司賴以建立的各種學術研究成果,比如 TCP/IP、先進的 RISC 處理器、互聯網本身,還有斯坦福數字圖書館項目——正是這個項目為 PageRank 在斯坦福的最初版本提供了資金支持。
我的同事 Dave Patterson 也在那一期寫了一篇文章,講述了他和伯克利同事們在多個五年期實驗室里所孕育出的諸多成果。我真切地認為,無論是在美國還是在全球,擁有一個充滿活力的學術研究生態都至關重要。正是這些早期、富有創造性的想法,最終帶來了重大的突破和創新。整個深度學習革命,實際上建立在三四十年前的學術研究之上——神經網絡、反向傳播等發明,直到今天仍然是我們所做一切的核心。因此,我一直主張建立一個健康、有活力的學術研究資助體系,因為它為社會帶來的回報極其巨大。
圖片
主持人:你、我、Dave Patterson 以及 Joel Pineau 都在 L Institute 的董事會里。這個機構的起點,部分源自你、Dave 和我以及另外幾位作者共同發表的那篇論文《Shaping AI’s Impact on Billions of Lives》。
在那篇文章中,我們討論了 AI 在公共討論、醫療、科學、再就業培訓、新聞業以及政策等領域可能產生的社會影響,也主張在加大類似 NSF 這種傳統資助的同時,探索并試驗新的資助模式。L Institute 正是這樣一種嘗試:它從成功的技術從業者那里募集資金,捐給一個非營利的 501(c)(3) 機構,再由這個機構運行“登月計劃”式的資助項目,專門支持 3 到 5 年期的研究實驗室——每個實驗室有 3 到 5 位 PI、30 到 50 名博士生,聚焦 AI 對科學進步、醫療、職業再培訓和公共討論的影響。你也一直在推動這種替代性資助模式。
圖片
3~5年時間尺度的實驗室研究,要比AGI炒作好得多
Jeff Dean:和你、Dave 以及其他合作者一起寫那篇論文,本身就是一件很有意思的事情。我很喜歡那篇文章的一點在于,我們系統地梳理了 AI 可能產生影響的多個領域:有些領域,如果我們把事情做對了,可能會帶來極其正面的效果;也有一些領域,前景并不完全明朗,AI 可能會帶來負面影響。
問題在于,我們如何在這些領域中,最大化 AI 的潛在收益,同時盡量降低風險。這不僅涉及計算機科學和機器學習研究,也需要與政策制定者,以及醫療、教育、科學等領域的一線從業者合作。我們特別強調了 3 到 5 年時間尺度的研究努力,以實驗室為單位推進,這與當下圍繞 AGI 或超級智能的高度炒作形成了對比。
圖片
相比之下,幫助一線醫療人員減輕負擔、消除放射科醫生在使用現有技術時的障礙,這些目標更具體、更現實,也更可實現。
我個人非常喜歡這種 3 到 5 年的時間窗口:時間不至于遙遠到看不到影響,也不至于短到無法做出真正有雄心的事情。在我自己的職業生涯里,每當啟動一個新項目,我往往都會問自己:三到五年內,我們能做到什么?這是一個非常合適、也令人愉悅的時間尺度。
登月級目標:AI醫療,圖靈獎、諾獎得主已申請加入
主持人:我很好奇,能否請你分享一兩個你個人特別關注的方向?在一起寫那篇論文時,我一直覺得很有意思的一點是,你和大量前沿項目都保持著緊密聯系——這些項目來自世界上最具創新精神的研究者和建設者。
你既是天使投資人,也慷慨地投入時間和精力,去指導那些希望在氣候、科學、公共討論,尤其是醫療領域產生實際影響的研究項目。醫療顯然是你非常關心的方向之一。我們為“登月資助計劃”搭建的項目委員會,目前已經收到了來自頂尖大學的申請,其中不乏圖靈獎得主和諾貝爾獎得主,一切都在按計劃推進,目標是資助那些真正能推動社會進步的研究。基于你的背景和你對這么多項目的深入了解,你能否分享一兩個你最看好的方向?
Jeff Dean:我確實對 AI 在醫療領域的應用充滿熱情。我心目中的“登月級目標”是:作為一個社會,我們是否有可能讓過去在醫療中做出的每一個決策,都能為未來的每一個決策提供參考?這是一個極其困難的目標,因為存在很多現實障礙,比如嚴肅的隱私問題,以及在不同司法轄區差異巨大的監管要求。但如果我們能以一種理想化的方式去思考:如何從每一次過往決策中學習,從而幫助每一位臨床醫生、也幫助每一個人,在未來做出更好的決策,那將是一個極其宏大、也極其值得追求的目標。
圖片
“AI登月”最大的挑戰:數據太分散了
主持人:我覺得圍繞這個目標,做一個 3 到 5 年的“登月式”計劃,或許真的能推進一些進展。可能沒法一步到位,但哪怕只走到一半,也已經很了不起了。以你對當前 AI 系統能力的判斷,這個挑戰更大的難點是在落地層面嗎?比如如何適配現有的醫療健康記錄、法律與合規要求、保險機構和醫院自身的律師體系等等。這些聽起來更像是實施難題,而不是能力本身的限制;還是說你認為,AI 的能力本身還需要進一步發展,才能真正釋放這些價值?
Jeff Dean:這里面確實有不少很有意思、偏研究性質的技術問題,但也有很多“臟活累活”式的現實挑戰,比如如何把數據整理成適合學習的形式。醫療數據分散在各種不同的醫療系統里,格式也各不相同。你很可能需要用到隱私保護機器學習、聯邦學習之類的方法。
從技術角度看,問題在于你不可能把醫療數據集中遷移出來,而是必須在數據原地、以保護隱私的方式,在各種不同環境中進行學習。所以這里既有真實而棘手的技術挑戰,也正如你說的,還有法律、監管層面的難題。這也正是為什么需要一個由不同背景專家組成的團隊:既要有機器學習和計算機系統方面的專家,也需要法律、政策和監管方面的人一起參與。
前沿TPU/GPU降低推理成本,還有很大創新空間
主持人:聽起來很有道理。還有沒有其他你個人特別偏愛的項目方向?
Jeff Dean:最近我特別著迷的一件事,是如何讓計算系統在現有最前沿的 TPU 或 GPU 之上,再進一步提升效率。我覺得這里還有很大的創新空間,尤其是在顯著降低推理成本方面,而推理顯然會成為一個越來越重要的領域。這其實又回到了 2013 年當初在餐巾紙上勾勒 TPU 起源時的那個問題。
主持人:如果現在重新畫那張“餐巾紙草圖”,你會看到什么?
Jeff Dean:如果今天重新來一遍,你會發現我們需要的是比現在低得多的延遲系統,同時還要有更高的吞吐量,而“每瓦性能”會變得極其關鍵。問題就變成了:我們能做些什么,去構建能耗大幅降低、但在質量和性能上依然不打折扣的系統?
圖片
當前不會公開Gemini架構的核心秘方,先發布新產品,然后在公開技術細節
主持人:你怎么看 Gemini 團隊、DeepMind 以及更廣義的 Google 內部研究,與 Google 之外整個 AI 學術和產業生態之間的關系?
過去,像 Transformer 這樣的論文,是一種向外輸出創新的方式;同時你們也大量吸收、站在外部學術成果的肩膀上繼續前進。現在,隨著 Google 在 Gemini 和硬件全棧上的巨大投入和領先地位,這種關系是否發生了變化?又是否需要繼續演進?尤其是在我們試圖探索新的研究資助模式,而傳統機制看起來并不樂觀的背景下,你怎么看 Google 與外部創新體系之間的這種邊界關系?
圖片
Jeff Dean:我覺得在發表與共享研究成果的方式上,確實一直在持續演進。在當前高度競爭的環境下,我們通常不會公開 Gemini 模型架構里的“核心秘方”。但在更早期、探索性的研究層面,我們依然會發表大量成果,比如一些還沒有完全驗證的新模型架構,我們會先在小規模上做實驗,然后把這些想法發表出來,讓整個生態都能拿去進一步探索或在此基礎上演進。
圖片
與此同時,我們也會持續關注社區里其他研究者的工作,思考哪些想法可以被引入,用來解決我們看到的問題。我并不認為“發表”是一種非黑即白的選擇,它本身是一個連續譜:什么時候發、發到什么程度,都可以靈活處理。
舉個例子,Google Research 在計算攝影領域已經深耕很多年,團隊里有非常出色的研究者,幾乎每年都會產出一些很酷的新成果,直接進入 Pixel 手機的影像軟件管線,比如夜視模式、天文攝影,或者“魔術橡皮擦”——可以把照片里不想要的人抹掉。
我們的做法通常是:先把這些能力放進下一代 Pixel 手機產品中,然后過一段時間,再把背后的技術細節整理成 SIGGRAPH 論文發表出來。也就是說,我們會先在產品中使用,然后再向社區分享底層原理,讓其他人能夠在此基礎上繼續創新。這種方式很好地體現了“發表與否”之間的連續性,而不是只有兩個極端選項。




































