Transformer 之父“叛逃”:我已經(jīng)受夠了 Transformer!警告:AI研究變得越來(lái)越窄,我們需要找到新的架構(gòu) 原創(chuàng)
編輯 | 聽雨
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
“我真的已經(jīng)受夠了 Transformer。”——這句話來(lái)自 Transformer 的共同作者、Sakana AI 聯(lián)合創(chuàng)始人 Llion Jones。
在舊金山 TED AI 大會(huì)上,這位被譽(yù)為“生成式 AI 時(shí)代奠基人”的研究者,突然“開炮”——不僅公開批評(píng)了整個(gè) AI 行業(yè)的研究方向,還宣布自己已經(jīng)“離開 Transformer”,開始尋找下一次重大突破。
要知道,Transformer 正是 ChatGPT、Claude、Gemini、Llama 等幾乎所有主流大模型的核心技術(shù)。而如今,它的發(fā)明人之一卻親口說(shuō):“我不干了。”
圖片
“AI 研究正在變得越來(lái)越窄”
Llion Jones 是 2017 年那篇改變 AI 歷史的論文《Attention Is All You Need》的作者之一,也是“Transformer”這個(gè)詞的命名者。
Image
這篇論文被引用超過(guò) 10 萬(wàn)次,堪稱計(jì)算機(jī)科學(xué)領(lǐng)域的“圣經(jīng)級(jí)”成果。
但在 TED AI 的演講上,Jones 卻直言:
“盡管現(xiàn)在 AI 領(lǐng)域投入了前所未有的資金與人才,研究卻變得越來(lái)越狹窄。”
他認(rèn)為,這種局面不是偶然,而是被資本和競(jìng)爭(zhēng)壓力擠壓出來(lái)的結(jié)果——投資人要求回報(bào),研究員害怕“被抄”,于是大家都選擇安全、可發(fā)表的項(xiàng)目,而不是去探索真正未知的方向。
結(jié)果呢?“AI 研究陷入了‘剝洋蔥’式的自我復(fù)制。大家都在圍著同一個(gè)框架打轉(zhuǎn)——換個(gè)超參、堆點(diǎn)數(shù)據(jù)、再發(fā)一篇論文。”
“我們可能又在錯(cuò)過(guò)下一個(gè)突破”
Jones 提出了一個(gè)形象的比喻——AI 算法有個(gè)經(jīng)典的平衡:“探索 vs 利用”(exploration vs exploitation)。
圖片
如果一個(gè)系統(tǒng)只是一味利用已有成果,而不去探索新方向,它就會(huì)陷入“局部最優(yōu)”,錯(cuò)過(guò)真正更好的解法。
“AI 領(lǐng)域現(xiàn)在就是這樣。”Jones 說(shuō)。“我們太沉迷于 Transformer 的成功,以至于忘了往外看。也許下一個(gè)革命性架構(gòu),就在不遠(yuǎn)處。”
Transformer 誕生于“沒(méi)有 KPI 的自由”
Jones 回憶起當(dāng)年在Google發(fā)明 Transformer 的經(jīng)歷時(shí),語(yǔ)氣明顯柔和了。
“那是一個(gè)非常自由、非常自然的過(guò)程——我們沒(méi)有明確的項(xiàng)目要求,也沒(méi)有指標(biāo)壓力。只是午飯時(shí)聊出來(lái)的點(diǎn)子,隨手在白板上寫寫畫畫。”
沒(méi)有 OKR、沒(méi)有 deadline,也沒(méi)有資本的緊逼。
正是這種“無(wú)壓力的研究環(huán)境”,讓 Transformer 這場(chǎng)技術(shù)革命得以誕生。
而如今的 AI 公司,Jones 說(shuō),哪怕給研究員上百萬(wàn)年薪,也無(wú)法給他們真正的自由。
“他們一上班就感到必須‘證明自己’,于是繼續(xù)追逐低風(fēng)險(xiǎn)、能發(fā)論文的方向。”
Sakana AI:離開 Transformer 的實(shí)驗(yàn)室
作為 Sakana AI 的 CTO,Jones 現(xiàn)在正嘗試“重建”那種原始的自由:以自然啟發(fā)為靈感的研究方向,極少的成果壓力,也不強(qiáng)迫研究者為了論文或競(jìng)爭(zhēng)對(duì)手而忙碌。他引用工程師 Brian Cheung 的一句話作為研究準(zhǔn)則:
“你應(yīng)該只去做那些,如果不是你,這個(gè)世界上就不會(huì)有人去做的研究。”
這家總部位于東京的 AI 實(shí)驗(yàn)室正在研究一種名為 “連續(xù)思考機(jī)”(Continuous Thought Machine) 的新架構(gòu)——靈感來(lái)自神經(jīng)同步的自然現(xiàn)象,它將大腦式的同步機(jī)制引入神經(jīng)網(wǎng)絡(luò)中。
圖片
一位提出這個(gè)想法的員工告訴 Jones,在他以前的公司或?qū)W術(shù)機(jī)構(gòu),類似的想法會(huì)被認(rèn)為“浪費(fèi)時(shí)間”。但在 Sakana,Jones 給了他一周自由探索的時(shí)間——結(jié)果,這個(gè)項(xiàng)目最終成功入選頂級(jí) AI 學(xué)術(shù)會(huì)議 NeurIPS 的展示。
Jones 甚至提出,自由比高薪更能吸引人才。
“這是吸引人才的極好方式,”他這樣評(píng)價(jià)這種“探索型”研究環(huán)境,“想一想,那些聰明、有野心、真正熱愛(ài)探索的人,自然會(huì)主動(dòng)尋找這樣的地方。”
“這不是競(jìng)爭(zhēng),而是探索”
最后,Jones 呼吁整個(gè)行業(yè):“我們不是在競(jìng)爭(zhēng),而是在共同探索。如果大家都能多一點(diǎn)分享、多一點(diǎn)冒險(xiǎn),我們也許能更快走向下一個(gè)重大突破。”
業(yè)界越來(lái)越多證據(jù)表明,單純擴(kuò)大 Transformer 模型規(guī)模 已接近極限。許多頂級(jí)研究者開始討論:或許新的架構(gòu)創(chuàng)新,而非參數(shù)堆疊,才是邁向更強(qiáng) AI 的關(guān)鍵。
但他也警告,這一突破可能永遠(yuǎn)不會(huì)出現(xiàn)——除非我們打破現(xiàn)有的激勵(lì)機(jī)制:金錢、競(jìng)賽、論文、排名……這些正讓研究者遠(yuǎn)離真正的探索。
作為 Transformer 的共同創(chuàng)造者,Jones 對(duì)這一局限的洞察極具分量。他選擇“告別自己的發(fā)明”,也讓他的觀點(diǎn)更具說(shuō)服力。
“也許下一個(gè) Transformer 級(jí)的突破,就在拐角處。但也可能被忽視——因?yàn)槲覀兌济χ牧家粋€(gè)我已經(jīng)‘厭倦’的架構(gòu)。”
畢竟,他是少數(shù)真正了解 Transformer 從誕生到極限的人之一。如果連他都覺(jué)得該向前走——那也許真是時(shí)候了。
Transformer 八位作者的去向
2017 年那篇改變 AI 進(jìn)程的論文《Attention Is All You Need》,有 8 位作者。八年后,他們已各自踏上完全不同的航線——
Ashish Vaswani 創(chuàng)立了 Essential AI;Noam Shazeer 離開Google創(chuàng)辦 Character.AI,又重回 Gemini 項(xiàng)目;Aidan Gomez 在 Cohere 帶領(lǐng)團(tuán)隊(duì)探索企業(yè)級(jí) LLM;Jakob Uszkoreit 轉(zhuǎn)向生物科技 AI,創(chuàng)辦 Inceptive;Llion Jones 離開Transformer陣營(yíng),創(chuàng)立 Sakana AI 研究“后 Transformer 時(shí)代”;?ukasz Kaiser 加入 OpenAI 繼續(xù)推動(dòng)推理模型發(fā)展;Illia Polosukhin 則投身 區(qū)塊鏈領(lǐng)域,打造 NEAR Protocol;而 Niki Parmar 仍保持低調(diào),鮮少公開露面。
從科研到創(chuàng)業(yè)、從語(yǔ)言模型到生物智能,他們幾乎代表了 AI 行業(yè)的所有分支方向。這一幕像極了 Transformer 自身的命運(yùn):從單一架構(gòu)出發(fā),衍生出無(wú)數(shù)變體與未來(lái)。
當(dāng)年那群年輕研究者改變了人工智能的軌跡;如今,他們又在各自的探索中,追尋下一個(gè)“Attention is all you need”時(shí)刻。
參考鏈接:https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:聽雨

















