AGI只是硅谷的幻想?!AI科學(xué)家盛贊中國(guó),并從物理學(xué)角度宣告我們永遠(yuǎn)造不出AGI
AI科學(xué)家Tim Dettmers在自己的博客發(fā)表了一篇文章《Why AGI Will Not Happen》。


物理世界不存在魔法,AGI和超級(jí)智能的宏大敘事正在撞上一堵名為物理法則的墻。
這是一篇寫(xiě)給那些愿意通過(guò)物理現(xiàn)實(shí)而非科幻小說(shuō)來(lái)審視人工智能未來(lái)的人的文章。
如果你身處2025年12月,可能對(duì)AGI(通用人工智能)和超級(jí)智能(Superintelligence)抱有某種執(zhí)念,要么堅(jiān)信奇點(diǎn)臨近,要么心存疑慮。
當(dāng)前的討論,尤其是源自舊金山灣區(qū)的那些聲音,往往陷在一個(gè)致命的誤區(qū)里:它們把計(jì)算看作一種抽象的哲學(xué)概念,而完全忽略了計(jì)算的物理實(shí)體性。
這種思維懶惰構(gòu)建了一個(gè)巨大的回音室,理性的聲音被淹沒(méi),盲目的樂(lè)觀正在誤導(dǎo)我們對(duì)未來(lái)的判斷。
我們要談?dòng)布⒖s放定律(Scaling Laws)、AI泡沫,但必須先回到一切的基礎(chǔ):物理現(xiàn)實(shí)。
計(jì)算必須嚴(yán)格遵循物理定律
灣區(qū)科技圈和牛津哲學(xué)派系混合出一種奇怪的文化,他們談?wù)揂GI和超級(jí)智能時(shí),就像在做抽象的思想實(shí)驗(yàn)。
這種源自有效利他主義(Effective Altruism)和理性主義社區(qū)的思維方式,最大的盲點(diǎn)在于忘記了計(jì)算是物理的。
有效的計(jì)算依賴(lài)兩個(gè)核心動(dòng)作:將全局信息搬運(yùn)到局部,以及匯聚多個(gè)局部信息以生成新信息。
晶體管越做越小,確實(shí)加速了局部計(jì)算的復(fù)雜性,但信息的搬運(yùn)成本并沒(méi)有隨之下降。
信息移動(dòng)的能耗和延遲,隨著距離的增加呈二次方級(jí)增長(zhǎng)。即便晶體管再小,內(nèi)存訪問(wèn)的物理限制依然存在。
看看緩存層級(jí)(Cache Hierarchies)就能明白這個(gè)道理。
L1、L2和L3緩存,在物理材質(zhì)上是一樣的,但計(jì)算屬性天差地別。
L2和L3比L1大得多,但也慢得多。這不是技術(shù)不到位,而是物理距離的問(wèn)題。
L3離計(jì)算核心更遠(yuǎn),電子在芯片上跑路需要時(shí)間。
這里有兩個(gè)鐵律:第一,緩存越大,速度越慢;第二,隨著晶體管縮小,計(jì)算變得極其便宜,但相對(duì)而言,內(nèi)存變得極其昂貴。
現(xiàn)在的芯片設(shè)計(jì),絕大部分面積都給了內(nèi)存,計(jì)算單元反而成了配角。
英偉達(dá)的市場(chǎng)部喜歡吹噓由于芯片算力達(dá)到了多少Exaflops,但他們不會(huì)告訴你,如果你無(wú)法用足夠快的內(nèi)存去喂飽這些算力,這些FLOPS就是廢的。
AI架構(gòu),比如Transformer,本質(zhì)上不是數(shù)學(xué)公式,而是物理形態(tài)的優(yōu)化方案。
你需要做兩件事:用多層感知機(jī)(MLP)處理局部關(guān)聯(lián),用注意力機(jī)制(Attention)池化遠(yuǎn)端信息。
Transformer之所以成功,是因?yàn)樗谖锢硇噬蠋缀踝龅搅藰O致,它用最簡(jiǎn)單的方式結(jié)合了局部計(jì)算和全局信息池化。
雖然研究還在繼續(xù),但邊際效應(yīng)已經(jīng)非常明顯——Transformer架構(gòu)已經(jīng)接近物理最優(yōu)解,很難再有質(zhì)的飛躍。
生物界也遵循同樣的物理鐵律。
動(dòng)物的智力上限被生態(tài)位的熱量攝入鎖死。靈長(zhǎng)類(lèi)動(dòng)物攝入多少卡路里,就能算出它有多少神經(jīng)元,誤差不超過(guò)1%。
人類(lèi)發(fā)明了烹飪,這是一種體外預(yù)消化技術(shù),極大地提升了熱量攝入效率,從而支撐了更大的大腦。
但這依然有物理極限。人類(lèi)女性懷孕時(shí)需要供養(yǎng)兩個(gè)大腦,這在能量代謝上極其昂貴,如果大腦再大一點(diǎn),母體就無(wú)法提供足夠的代謝能量。
我們現(xiàn)有的智力水平,是能量物理限制劃定的邊界。
數(shù)字計(jì)算正在逼近同樣的邊界。
線性進(jìn)步必須消耗指數(shù)級(jí)資源
跨學(xué)科的研究揭示了一個(gè)殘酷的現(xiàn)實(shí):想要獲得線性的進(jìn)步,必須投入指數(shù)級(jí)的資源。無(wú)論你想提高系統(tǒng)的精度還是效率,每前進(jìn)一步,代價(jià)都是倍增的。
這背后有兩個(gè)現(xiàn)實(shí)在起作用:物理現(xiàn)實(shí)和理念空間(Idea Space)。
在物理現(xiàn)實(shí)中,資源在時(shí)間和空間上的累積存在擁堵效應(yīng)。你想在局部產(chǎn)生一個(gè)線性的結(jié)果,理論上需要線性的資源,但因?yàn)槲镔|(zhì)占據(jù)空間,資源的調(diào)配和匯聚會(huì)隨著規(guī)模擴(kuò)大而變慢,導(dǎo)致效率遞減。
在理念空間,情況更為隱蔽。
如果兩個(gè)點(diǎn)子完全獨(dú)立,它們的效果可能疊加出十倍的威力。但問(wèn)題是,人類(lèi)的想法往往是高度相關(guān)的。
新想法通常建立在舊想法之上,這種依賴(lài)性導(dǎo)致了嚴(yán)重的收益遞減。比如在AI領(lǐng)域,狀態(tài)空間模型(State-based models)和Transformer看起來(lái)大相徑庭,但它們本質(zhì)上都在解決同一個(gè)注意力問(wèn)題。
在一個(gè)已經(jīng)被充分探索的子領(lǐng)域里,大多數(shù)想法都已經(jīng)被想過(guò)了,剩下的要么是微小的修補(bǔ),要么是那種看起來(lái)狂野但毫無(wú)實(shí)用價(jià)值的偽創(chuàng)新。
理論物理學(xué)是最好的例子。
一位頂尖理論物理學(xué)家曾坦言,現(xiàn)在所有的理論工作,要么是現(xiàn)有理論的增量修補(bǔ),要么是編造出來(lái)的問(wèn)題。
實(shí)驗(yàn)物理學(xué)更是如此,大型強(qiáng)子對(duì)撞機(jī)(LHC)為了驗(yàn)證標(biāo)準(zhǔn)模型,投入了數(shù)十億美元和更高的能量,結(jié)果只是排除了更多的錯(cuò)誤理論,得到一堆不確定的結(jié)果。
暗物質(zhì)和暗能量依然是謎。我們可能不得不承認(rèn),由于資源的限制,宇宙的某些物理真相是不可知的。
回到AI,如果我們想要模型性能線性增長(zhǎng),就需要投入指數(shù)級(jí)的算力和數(shù)據(jù)。這種指數(shù)級(jí)的成本增長(zhǎng),終將讓進(jìn)步停滯。
硬件升級(jí)的紅利已經(jīng)徹底吃盡
這是一個(gè)在非專(zhuān)業(yè)人士中流傳最廣的誤解:硬件會(huì)一直進(jìn)步。人們習(xí)慣了摩爾定律的敘事,認(rèn)為GPU會(huì)一代比一代強(qiáng),AI性能也會(huì)隨之水漲船高。
事實(shí)是,GPU的 meaningful improvement(有意義的改進(jìn))已經(jīng)結(jié)束了。
回顧AI的發(fā)展史,AlexNet的誕生歸功于CUDA在GPU上實(shí)現(xiàn)了卷積運(yùn)算。
此后的進(jìn)步主要靠?jī)牲c(diǎn):更好的GPU和更多的GPU。但在2018年左右,GPU的性?xún)r(jià)比/性能曲線就已經(jīng)見(jiàn)頂了。從那以后,硬件廠商所做的,主要是挖掘一次性的特性。
看看我們經(jīng)歷了什么:先是16位精度,然后是張量核心(Tensor Cores),接著是高帶寬內(nèi)存(HBM),再到TMA,然后是8位精度,最后是4位精度。這條路已經(jīng)走到頭了。
我在關(guān)于k-bit推理縮放定律的論文中已經(jīng)證明,對(duì)于特定的計(jì)算排列,數(shù)據(jù)類(lèi)型的壓縮是有物理極限的。現(xiàn)在硬件廠商已經(jīng)采納了這些極限設(shè)計(jì)。
未來(lái)的改進(jìn)只能是妥協(xié)(Trade-offs):要么為了更低的內(nèi)存占用犧牲計(jì)算效率,要么為了更高的吞吐量犧牲內(nèi)存空間。
即便你能創(chuàng)新,那也逃不脫線性進(jìn)步需要指數(shù)級(jí)資源的魔咒。
既然單卡GPU不再有質(zhì)的飛躍,人們寄希望于機(jī)架(Rack)級(jí)別的優(yōu)化。
高效地搬運(yùn)鍵值緩存(Key-Value Caches)是當(dāng)前的核心難題。
OpenAI吹噓的基礎(chǔ)設(shè)施,其實(shí)在架構(gòu)上并沒(méi)有什么秘密。
設(shè)計(jì)方案只有一種最優(yōu)解,雖然工程實(shí)施極其復(fù)雜,需要大量的時(shí)間和人力,但本質(zhì)上并不新穎。
OpenAI或其他前沿實(shí)驗(yàn)室在推理和基礎(chǔ)設(shè)施棧上并沒(méi)有根本性的護(hù)城河。機(jī)架級(jí)優(yōu)化和數(shù)據(jù)中心級(jí)優(yōu)化帶來(lái)的優(yōu)勢(shì),大概在2026年或2027年也會(huì)耗盡。
之前我們投入線性的成本能獲得線性的回報(bào),因?yàn)镚PU的進(jìn)步抵消了縮放定律的指數(shù)級(jí)成本。
現(xiàn)在這個(gè)抵消機(jī)制消失了。
我們正面臨指數(shù)級(jí)成本換取線性回報(bào)的局面。
縮放定律在2025年的表現(xiàn)已經(jīng)不盡如人意,如果2026年和2027年沒(méi)有奇跡,物理墻就會(huì)把我們擋在門(mén)外。
對(duì)于前沿實(shí)驗(yàn)室來(lái)說(shuō),這非常危險(xiǎn)。
如果單純的規(guī)模堆疊不能帶來(lái)顯著超越研究/軟件優(yōu)化的提升,那么龐大的硬件資產(chǎn)就會(huì)從資產(chǎn)變成負(fù)債。
像MoonshotAI和Z.ai這樣的小玩家證明,不需要頂級(jí)資源也能達(dá)到前沿性能。
如果小模型變得足夠強(qiáng),或者軟件優(yōu)化(如vLLM和SGLang之外的更高效棧)讓3000億參數(shù)模型的部署成本大幅下降,前沿實(shí)驗(yàn)室的基礎(chǔ)設(shè)施優(yōu)勢(shì)可能會(huì)在一夜之間蒸發(fā)。
應(yīng)用普及勝過(guò)追求超級(jí)智能
在AI的發(fā)展路徑上,中美兩國(guó)走了完全不同的路。
美國(guó)的邏輯是贏家通吃。
他們認(rèn)為終極目標(biāo)是建立超級(jí)智能,誰(shuí)先造出來(lái)誰(shuí)就贏了。
即便沒(méi)達(dá)到AGI,只要你的模型最強(qiáng),所有人都會(huì)用你的。這種思維專(zhuān)注于打造一個(gè)全知全能的上帝模型。
中國(guó)的哲學(xué)則完全不同。
中國(guó)不執(zhí)著于模型本身的絕對(duì)能力,而看重應(yīng)用和普及。
模型比別人強(qiáng)一點(diǎn)點(diǎn)并不重要,重要的是它能不能低成本地融入生產(chǎn)生活,能不能產(chǎn)生實(shí)際的生產(chǎn)力。
如果現(xiàn)有的方案已經(jīng)足夠好(Good Enough),能帶來(lái)效率提升,那就直接用,而不是為了那1%的性能提升去燒錢(qián)。
美國(guó)的哲學(xué)是短視且危險(xiǎn)的,尤其是當(dāng)模型能力增長(zhǎng)放緩時(shí)。
中國(guó)的哲學(xué)則更加務(wù)實(shí)和長(zhǎng)遠(yuǎn)。
AI的真正價(jià)值在于它像電腦或互聯(lián)網(wǎng)一樣,成為一種通用基礎(chǔ)設(shè)施。
如果AI只用于寫(xiě)代碼或輔助工程,它的經(jīng)濟(jì)影響是有限的。
軟件生產(chǎn)本身也有邊際收益遞減的問(wèn)題。
AI必須滲透到經(jīng)濟(jì)的每一個(gè)毛細(xì)血管里,通過(guò)大規(guī)模的整合來(lái)挖掘非線性的收益。
中國(guó)正在通過(guò)補(bǔ)貼應(yīng)用端來(lái)鼓勵(lì)這種滲透。在中國(guó),看到80歲的老奶奶用AI輔助日常生活并不稀奇。
這就是經(jīng)濟(jì)擴(kuò)散(Economic Diffusion)的力量。
相比之下,美國(guó)對(duì)AGI和超級(jí)智能的賭注,是建立在對(duì)物理現(xiàn)實(shí)的無(wú)視之上的。
真正的AGI必須包含物理任務(wù),這是經(jīng)濟(jì)活動(dòng)中最大的板塊。
也就是說(shuō),AGI必須是能干活的機(jī)器人。
讓機(jī)器人從洗碗機(jī)里把碗拿出來(lái),這很方便,但你不會(huì)在工廠里看到這種通用機(jī)器人,因?yàn)閷?zhuān)用機(jī)器人效率更高、更精準(zhǔn)。
中國(guó)已經(jīng)有了全自動(dòng)化的黑燈工廠。大多數(shù)工業(yè)機(jī)器人問(wèn)題在受控環(huán)境下已經(jīng)解決了。而剩下的未解決問(wèn)題,比如縫制T恤袖子,在經(jīng)濟(jì)上根本不劃算。
至于家庭機(jī)器人,如果疊衣服需要機(jī)器人花幾分鐘只能做到平庸的水平,我寧愿自己花兩分鐘疊好。
機(jī)器人學(xué)習(xí)遵循與大語(yǔ)言模型類(lèi)似的縮放定律,但物理世界的數(shù)據(jù)收集太昂貴了,細(xì)節(jié)也太復(fù)雜。機(jī)器人技術(shù)的影響力將是有限的。
至于超級(jí)智能(Superintelligence),這純粹是一個(gè)基于錯(cuò)誤前提的幻想。
這個(gè)概念假設(shè)一旦智力達(dá)到人類(lèi)水平,它就能自我遞歸改進(jìn),引發(fā)失控的智能爆炸。
這是牛津哲學(xué)家?guī)Ыo灣區(qū)的又一個(gè)脫離物理現(xiàn)實(shí)的抽象概念。
改進(jìn)任何系統(tǒng)都需要資源。
即便超級(jí)智能比人類(lèi)更善于利用資源,它依然受制于線性進(jìn)步消耗指數(shù)級(jí)資源的鐵律。
超級(jí)智能無(wú)法加速HBM內(nèi)存的物理開(kāi)發(fā)流程,無(wú)法突破芯片制造的物理良率,無(wú)法改變Transformer接近物理極限的事實(shí)。
推理堆棧的優(yōu)化已經(jīng)是一個(gè)解決得差不多的工程問(wèn)題,超級(jí)智能在這里也玩不出什么花樣。
那些指望超級(jí)智能來(lái)拯救算力瓶頸的人,和指望永動(dòng)機(jī)的人沒(méi)有區(qū)別。
2025年的結(jié)論非常清晰:AGI不會(huì)發(fā)生,因?yàn)橛?jì)算受制于物理;超級(jí)智能是幻想,因?yàn)檫f歸進(jìn)化受制于資源。
未來(lái)的贏家不是那個(gè)造出上帝的人,而是那個(gè)能把AI便宜、好用地塞進(jìn)每一個(gè)角落的人。






























