編輯|聽雨
大事來了。
據路透社報道,谷歌正在推進一項內部代號為 TorchTPU 的計劃,目標非常明確:讓自家的 TPU 能像英偉達 GPU 一樣,高效、順暢地運行 PyTorch。為此,谷歌與 PyTorch 的主要維護方 Meta 深度合作,為了加快采用,甚至考慮將部分軟件棧開源。
目前,TPU銷售已經成為谷歌云的收入增長的重要引擎。與過去支持PyTorch的嘗試相比,這次谷歌投入了更多組織資源和戰略重視,可以說是鐵了心要把TPU打造成英偉達市場領先 GPU 的可行替代方案。
谷歌準備TorchTPU的生產需要12到18個月。可以想象,如果 TorchTPU 取得成功,它可能成為首個真正由開源生態驅動、直接沖擊英偉達軟件護城河的挑戰者。
挑戰英偉達CUDA護城河
眾所周知,PyTorch 是AI 開發者最廣泛使用的工具之一。它最早發布于2016年,是一個由 Meta Platforms(META.O)大力支持的開源項目。
在工程環境中,幾乎沒有開發者直接為芯片寫代碼。無論底層是 Nvidia、AMD 還是 Google 的芯片,開發者真正面對的,是 PyTorch 這樣的框架。它已經成為 AI 領域事實上的“默認抽象層”:模型訓練、推理、調試、部署,大多數工程師都圍繞 PyTorch 構建工作流。
這也是英偉達真正的優勢所在。
英偉達不僅擁有性能強勁的 GPU,更重要的是,其 CUDA 軟件生態與 PyTorch 深度綁定。十多年來,英偉達的工程師一直確保使用PyTorch開發的軟件能在其芯片上盡可能快速高效地運行。大量性能優化、算子實現、工程經驗都沉淀在 CUDA + PyTorch 這一組合中,形成了極高的遷移成本。
相比之下,谷歌的 TPU 長期圍繞其內部使用的 JAX 框架和 XLA 編譯器進行優化。這就導致開發者如果想在 TPU 上獲得與英偉達 GPU 相當的性能,往往需要投入大量額外的工程工作。
這就造成了一種尷尬的局面。雖然 JAX 在谷歌內部的工作負載中效率很高,但對基于 PyTorch 構建 AI 基礎設施的外部企業客戶來說,TPU在AI工作負載上更難采用,甚至已經成為一個顯著的瓶頸。
然而,自研TPU是谷歌重點押注的路線。自2022 年谷歌開始加大 TPU 的產量和對外銷售力度以來,TPU的銷量使得谷歌云的收入增長節節攀高。
到了今年,谷歌已開始將 TPU 直接出售給客戶的數據中心,而不再局限于自家的云服務。并且組織架構也隨之調整,谷歌老將 Amin Vahdat 本月被任命為 AI 基礎設施負責人,直接向 CEO 桑達爾·皮查伊(Sundar Pichai)匯報。
谷歌TPU的最新版本,第七代TPU Ironwood,針對推理進行了優化。它擁有大量的共享內存,單個SuperPOD最多可連接9216個芯片,從而解決了大型混合專家(MoE)模型的內存限制問題。
隨著TPU戰略的擴張,消除Pytorch的兼容障礙是谷歌必須走的一步棋。
為什么 Meta 會站在谷歌這一邊?
為加快開發進度,谷歌正在與 Meta密切合作。
Meta 是 PyTorch 的創建者和最重要的推動者之一,而它同樣面臨一個現實問題:對英偉達 GPU 的依賴過深,推理成本居高不下。
從Meta的角度來看,不難理解其為什么與谷歌合作。通過與谷歌合作優化 PyTorch-on-TPU,Meta 也能獲得不少好處:比如更便宜的推理算力、在 GPU 采購談判中增加籌碼、推動 AI 基礎設施多元化,避免被單一廠商“卡脖子”等等。
2027年起,Meta Platforms公司可能開始租賃或采購谷歌的TPU芯片用于其數據中心。Meta 早期獲得的 TPU 方案多為由谷歌托管的服務模式,即客戶(如 Meta)部署谷歌芯片來運行谷歌的軟件和模型,同時由谷歌提供運維支持。
這也意味著谷歌正轉型成為一家商業芯片供應商。據估計,谷歌可能會占據英偉達年總收入的10%,這筆收入高達數十億美元。
網友:可能會削弱英偉達的定價權
可以想見,如果TorchTPU成功了,將顯著降低企業從英偉達GPU轉向替代方案的切換成本。
已經有不少企業想要逃離英偉達鎖定的生態。除了谷歌押注 TPU,亞馬遜網絡服務(AWS) 剛剛推出了新一代 Trainium 3 芯片,微軟也在推進自研的 Maia 加速器。這些嘗試都在逐步削弱 CUDA 在軟件層的唯一性地位。
2026 年,隨著更多企業完成對自研或非 Nvidia 芯片的軟件適配,算力市場可能從“GPU 一家獨大”,轉向多架構并存的新階段。
在X上也有不少網友發表了對此事的看法。一位名為Ricardo的網友認為,TorchTPU的研發不僅會削弱英偉達的定價權,還可能動搖其4萬億美元的市值:
圖片
有網友對巨頭之間的芯片戰爭表示喜聞樂見:
圖片
不過也有不少網友對TPU并不看好,認為TPU的主要挑戰在于產能比不上英偉達GPU。
圖片
或是認為GPU在AI領域的應用比TPU更廣泛,TPU只能在某些特定任務中占據英偉達的部分市場份額:
圖片
此外,也有網友的關注點放在了英偉達會如何應對,比如更深層次的Pytorch集成或自身開源嘗試。
圖片
那么評論區的各位大佬們:
你們怎么看待谷歌研發TorchTPU這件事?
它真的能威脅到英偉達堅固的CUDA生態嗎?

































