編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
“今天,我們已經進入主權AI的時代。AI 的競爭,正在從模型之爭,轉向算力、算法與生態的系統性競爭。”
12月20日,在國產GPU第一股摩爾線程主辦的首屆摩爾線程開發者大會主論壇現場,中國工程院院士、清華大學計算機系教授鄭緯民圍繞“中國主權 AI 計算引擎的構建”,給出了一個清晰而直接的判斷。
鄭院士首先表示,真正意義上的“主權 AI”,并不是簡單地把模型部署在本地,而是需要三個相互依存的支柱共同支撐:算力自主、算法自主、生態治理。
圖片
他特別強調,生態的重要性并不亞于前兩者。開發者是否愿意長期使用,決定了平臺的生死。“如果開發者不愿意用、不愿意長期寫代碼,再先進的芯片也無法形成真正的生產力。”

此外,在技術路徑上,鄭緯民明確提出:未來 AI 所需要的不是“單一用途芯片”,而是“全功能 GPU”。

只有在同一顆芯片中同時具備 AI、3D、HPC 能力,才能真正滿足未來“物理 AI”和世界模型的發展需求。這也是他高度認可國產全功能 GPU 技術路線的重要原因。
更重要的是,鄭緯民直言,AI 規模化的真正難題,并不在單卡性能,而在超大規模集群的工程能力,比如:互聯網絡如何穩定擴展、十萬卡級系統的可靠性與運維、供電、散熱等工程復雜度等等。

在他看來,國產算力體系的實踐已經證明:在自研芯片 + 網絡 + 軟件棧 + 算子庫的協同下,構建通用大規模 AI 計算系統是“可行的路徑”,并非不可逾越。
談到國產 GPU 的現實處境,鄭緯民給出了一條非常務實的判斷路徑:
第一步是“能用”,第二步是“好用”,最終目標是“愿意長期用”。
他指出,遷移成本是否足夠低、工具鏈是否完善、代碼能否自動遷移,決定了開發者是否愿意從成熟生態轉向國產平臺。開發者才是生態的核心,而不是芯片廠商。

最后,鄭院士再次強調了生態的重要性。“生態不是一個廠家的事,而是整個產業共同的責任。”
他呼吁產業界避免各自為戰。他指出,不同芯片、不同接口導致的軟件碎片化,正在推高開發成本,削弱國產生態的整體競爭力。只有通過聯盟化、標準化的軟硬件協同,才能真正減少內卷,讓國產 GPU 成為開發者“愿意選擇”的新選項。
以下是小編整理的鄭院士的演講全文,建議收藏細讀。
1.主權 AI 的三大支柱:算力、算法、生態
鄭緯民:非常高興來參加摩爾線程的開發者大會。
我今天大概用十五分鐘,跟大家分享一下關于中國主權 AI 計算引擎構建的一些思考,重點是以國產 GPU 為代表的自主可控路徑。
為什么要講這個問題?因為我們所處的時代變化非常快。過去,芯片產業是一個高度全球化分工的體系:有人做芯片設計,有人做設備制造,有人做代工,有人做封裝,各個國家和地區分工協作。
但這幾年情況發生了很大變化。高端 AI 芯片面臨出口限制和技術封鎖,這已經不是簡單的市場問題,而是結構性問題。過去“分工”本身不需要討論,而今天,主權 AI 已經從一個學術概念,變成每一個國家必須正面回答的現實問題。
今天我主要講五個方面的問題。首先講主權 AI。我認為,主權 AI 有三個支柱。
第一個是算力自主。第二個是算法自強。第三個是生態治理。
這三個方面相互依存、互為前提,共同構成主權 AI 的系統工程框架。
我先講算力自主。算力是 AI 的物理層安全底座。什么叫算力自主?我認為至少有三個要求:第一,芯片設計能力要自主;第二,制造和供應鏈風險要可控;第三,系統和軟件棧的交付能力要足夠強。
這三條如果做到了,才能真正談得上算力自主。
接下來是算法自強。沒有算力自主,很難談算法的原生創新。對 GPU 來說,這意味著你的 GPU 芯片不僅能跑大模型,還要能支持大模型訓練、推理以及模型優化,這才是完整意義上的能力。
第三個是生態。生態在某種程度上,并不比算力和算法次要,甚至可能更重要。為什么這么說?因為我們要從“能跑”,走向“愿意用”。不是說芯片能跑一個程序就夠了,而是開發者是否愿意長期使用這套平臺。
因此我一直強調,開發者是生態的核心。廠家當然重要,但真正決定生態能否建立的,是用芯片的人,是開發者。
這是我講的第一個問題。
2.為什么“全功能 GPU”是必經之路
第二個問題,我想講 AI + 3D + HPC 的融合架構。什么意思?物理 AI、世界模型需要什么樣的芯片?
我認為至少有三個方面的要求:第一,要支持 AI 計算;第二,要支持完整的 3D 圖形能力;第三,要具備 HPC 所需的高精度計算能力。
也就是說,一顆芯片必須同時具備這三類能力。全功能 GPU 的技術路徑,本質上就是在一顆 GPU 上集成這三件事情。
你需要完整的圖形流水線,需要以張量計算為核心來支持 AI,同時還要具備高精度浮點能力來支撐 HPC。只有同時具備這三點,才能滿足物理 AI 的發展需求。
目前,國產全功能 GPU 已經在沿著這條路徑推進。能夠在一顆芯片上同時完成 AI、3D 和 HPC 能力的代表性產品,后面張總也會做進一步介紹。
從系統角度看,這是一種 “1 + 2 + 3” 一體化的系統級架構,也是新一代計算平臺的重要方向。
另外一個方向,是世界模型所需的 3D 數據基礎設施。這類能力將廣泛應用于世界模型、數字孿生、工業仿真、AI 優化、視頻生成等場景。這些能力是融合在一起的,而不是割裂的——不是只做 AI,或者只做 3D,或者只做 HPC。

第二點,我主要講第三條,也就是超大規模系統的問題。現在國產萬卡系統做到十萬卡,非常難。不是說你把十萬塊卡簡單地拼在一起,加點電信號,就能把系統做好、用好。那我們為什么一定要做萬卡、十萬卡系統?因為算力是基石,我們需要十萬卡規模的盤子來支撐訓練。
3.國產萬卡系統,究竟難在哪里
我們做模型訓練、做很多事情,真正需要的是大規模算力。萬卡系統是一個必選項目,不是說“做一次就夠了”。那十萬卡系統難在哪里?我認為主要有三點。
第一是互聯網絡。你把十萬塊卡連在一起,怎么連?互聯架構究竟怎么設計,這是非常難的第一個問題。
第二是可靠性和運維。十萬卡連在一起,按統計概率,基本上平均一個小時就會有一塊卡出問題。對不對?一塊卡一個小時出錯,兩小時左右又有一塊卡出錯。但整個系統不能停,出錯了還要繼續訓練。這對可靠性和運維提出了極高要求,往往需要一到兩年的工程積累。此外,還包括供電等一系列工程問題。
第三個問題是工程復雜度。十萬卡系統是一個巨大的系統工程,不只是芯片本身,涉及機房、布線、散熱等一整套工程問題。即便是一萬卡系統,也已經非常難了。這些問題都必須解決。
如果不解決這些問題,我們就很難往前走。我們這幾年看到,在國產 GPU 的時間表下,通過通用網絡加自研軟件的協同,在協同條件下,構建一個可用的大規模系統是可行的。不是說一定要依賴國外廠商,中國人完全可以把這件事情做好。

這其實是一個開發者和生態的問題。真正決定主權 AI 能否成功的,不是硬件本身,而是是不是有足夠多的開發者愿意長期在這個平臺上工作。
你把芯片做出來當然重要,但如果沒有人用,是沒有意義的。只有當足夠多的開發者愿意長期在這個平臺上做開發,生態才能真正形成。生態不是廠家的事情,廠家的角色是為開發者把事情做好。
4.國產算力平臺的核心挑戰
因此,國產平臺需要解決的第一個核心問題是:遷移成本要低。
不能因為開發者原來寫的程序,就很難遷移到國產平臺。現在工具鏈還不是特別成熟,我們也看到了這個問題。但社區里已經有不少不錯的探索。我們的目標是,從“能用”走向“好用”,而真正的轉變點在于開發者和開發者所在的企業。
第一步是讓他們“能用”;第二步是讓他們“愿意用、持續用”。在這方面,摩爾線程等廠商已經在探索一整套系統模式。
這套系統本質上是在擴大生態。國產平臺現在有很多算子、很多基礎組件,同時也在做自動遷移工具,提高模型和代碼在不同平臺上的適配能力,支持更多應用場景。這些事情目前都在推進中。
圖片
另外我想特別強調一點:開源非常重要。我們要盡可能地開源。開源以后,會有更多人幫你發現問題、反饋問題,也會有更多學生和開發者愿意使用。現在的大模型時代,本身就是一個高度開源的時代。只有國產平臺成為開源創新的重要選擇,生態才能真正建立起來。
關于開源,我舉兩個例子。在我所在的清華大學計算機系,我們團隊做了兩件事情:第一是圍繞基礎推理架構做開源工作,這使得硬件適配和系統優化變得更加容易。
第二個例子是混合計算。現在很多場景并不是“只有 GPU”或“只有 CPU”,而是 CPU 和 GPU 混合使用。我們把這套混合調度和計算方法開源了,現在很多廠商也都在做類似的事情。這再次說明了開源的重要性。
5.生態是整個產業的問題,不能碎片化
最后一個問題,是產業生態的碎片化。
當前產業面臨一個明顯的問題,就是內卷和碎片化。不同廠家提供不同接口,軟件適配成本極高。無論做軟件還是做系統,工程量都非常大。
因此,產業聯盟式的軟硬件協同設計非常重要。要減少用戶工程量,讓不同芯片、不同系統之間盡量統一接口、降低門檻。這不是某一家廠商能解決的問題,需要整個產業鏈協同推進。
我一直強調,生態問題不是一個廠家的問題,而是整個產業的問題。只有大家一起努力,國產計算生態才能真正百花齊放,在激烈競爭中攻堅突破技術壁壘,實現共同成長。
謝謝大家。
























