OpenAI前聯合創始人深度復盤：2018年就能做出ChatGPT，實現AGI會比預測晚2-3倍，上下文學習短時間內無可替代！

作者：聽雨 2025-12-24 14:29:00

如果最早創建 OpenAI 的那批人回到 2015、2016 年，目標是極速通關做出 ChatGPT，那么你覺得最快能有多快？以及，真正限制他們更快做到這一點的瓶頸是什么？如果他們有“完全的后見之明”，會采取哪些不同于歷史實際發生的關鍵決策？

編輯 | 聽雨

出品 | 51CTO技術棧（微信號：blog51cto）

“如果早知道 Scaling 的回報這么高，那ChatGPT完全可以更早做出來！”

這是OpenAI的前聯合創始人、Thinking Machines首席科學家John Schulman 在最新采訪中的論斷。

以他的判斷，放在2018-2019年，只要幾位非常優秀的人工作一年左右，就可以做出接近 ChatGPT-3.5 的系統。

這里簡單介紹一下，John Schulman是強化學習領域的重量級人物。他是OpenAI 的聯合創始人，前期在OpenAI領導強化學習團隊，開發了著名的PPO算法（近端策略優化）和TRPO（信任區域策略優化）算法，并與Ilya Sutskever共同領導超級對齊團隊，負責ChatGPT的后訓練。

Schulman 在博士期間師從強化學習大牛、曾經吳恩達的第一批博士生Pieter Abbeel。他的代表作、也是最高引論文PPO發表于2017年，這是ChatGPT核心技術RLHF中選用的強化學習算法。

圖片

Schulman于2024年8月起短暫加入了Anthropic，之后又加入OpenAI 前 CTO Mira Murati 創辦的Thinking Machines Lab，并擔任首席科學家。

本期訪談的主持人是 Cursor 首席執行官 Michael Truell，他與 Schulman 一起回顧了OpenAI的發家史。

早期的OpenAI是一個松散、非正式、偏學術的組織，有很多時間進行探索，因此能夠產生公司整體愿景的“涌現”—— Schulman 透露現在的Thinking Machines和當時的OpenAI很相似。

Schulman 指出，現在的新公司往往必須先追趕 SOTA，才能談探索，這并不是一件好事：

我一直非常警惕一件事，如果一個組織長期只處在“追趕模式”，是很難在之后建立起真正的探索性研究文化和能力的。

Schulman 還談論了強化學習的規模化。他指出在當前 RLHF 場景中，傳統的價值函數并沒有發揮太大作用，但預計未來仍有可能重新回到舞臺中央。同時，上下文學習在短時間尺度幾乎無可替代，而長期記憶和持續學習，最終仍需要權重更新和參數微調來支撐。

有關最近討論得十分火熱的“AGI時間表”，Schulman則潑了一盆冷水：他認為按照經驗法則，AGI 的真正到來可能比大多數預測慢 2–3 倍。

對于進入AI領域的研究人才，Schulman 強調工程能力的重要性顯著上升，而純探索式研究和個人品味的重要性相對下降。他指出，在今天具有扎實軟件工程背景的人往往更具優勢。

有關未來的訓練范式，Schulman 認為聯合訓練生成器與驗證器、多智能體博弈訓練，可能會成為未來 LLM 和 RL 系統的核心方法。此外，離線強化學習也是 Schulman 看來非常有潛力的方向。

最后，Schulman 也預告了一波 Thinking Machines 的研究進展：明年將發布新模型；在 Tinker 方面將增加更多模型功能，支持多模態訓練與輸入輸出，并顯著提升可支持的任務規模。

小編整理了整期對話實錄，在不改變原意的情況下做了部分刪減和潤色，enjoy！

ChatGPT可以更早做出來

主持人：

如果最早創建 OpenAI 的那批人回到 2015、2016 年，目標是極速通關做出 ChatGPT，那么你覺得最快能有多快？以及，真正限制他們更快做到這一點的瓶頸是什么？如果他們有“完全的后見之明”，會采取哪些不同于歷史實際發生的關鍵決策？

John Schulman：

我認為，如果目標是用更少的算力做出類似 ChatGPT 的東西，其實是可以做到的。我們已經看到像 nanoGPT 這樣的例子。

有時候，用更多算力做事情更直接；但如果你愿意引入更多巧妙的工程和訓練技巧，同樣的效果也可以用更少算力實現。

另外，如果我們當時知道 scaling 的回報會這么高，那其實是可以更早、更激進地擴展規模的。

如果你真的提前知道完整配方，那么幾乎肯定可以更早做出來。你可以直接搭建一個大集群，先預訓練一個模型；然后結合我們現在對后訓練的理解，通過更好的微調和數據構造，大幅“放大有效算力”。

即使你需要一個 GPT-3 級別的模型才能得到一個不錯的 few-shot 對話模型，只要你愿意在微調和數據構造上花足夠心思，其實可以讓一個更小的模型表現得非常好。

（注：nanoGPT 是 Andrej Karpathy 創建的一個用于對中等規模的生成式預訓練Transformer進行訓練和調優的框架）

主持人：

你覺得需要多少人？大概在哪一年能做到？以及需要多少 GPU？

John Schulman：

如果我們假設完全的后見之明的話，nanoGPT 基本上是一個人寫的，在一臺機器上跑，大概花了半年時間。這至少給出了一個上限。

當然，這是在 H100 上跑的；如果回到更早的年代，可能只能用 V100 之類的硬件。但即便如此，我認為如果有幾臺 GPU 機器，還是可以做到一些東西的。

我猜，在 2018 或 2019 年，只要有幾位非常優秀的人，工作一年左右，就有可能做出一個接近 ChatGPT-3.5 水平的系統。當然，我可能低估了整個技術棧中不同部分的復雜性。

圖片

而且這也建立在一個前提之上：你是站在別人已經構建好的預訓練數據集和網頁抓取成果之上的。

所以我并沒有完全想透這個問題，但我的直覺是：2018–2019 年，少數幾個人，是有可能做到 GPT-3.5 級別的東西的。

而且未來甚至可能更極端，也許會出現那種“demo scene”風格的 ChatGPT：一個文件，自動抓取網頁、自動訓練模型，一天內完成全部流程。

早期OpenAI像個“學術草臺班子”

主持人：

現在 OpenAI 從市值和資本開支角度看，已經是世界上最大的公司之一了。但人們很容易忽略的是，早期 OpenAI 其實是一個非常非正式、甚至有點“草臺班子”的團隊。你同意這種看法嗎？能不能幫我們具體描繪一下 2016–2017 年左右的 OpenAI 是什么樣子？

另外，你能否分享一個完全失敗的早期項目，一個現在在 2025 年幾乎沒人再提起的“死胡同”？

John Schulman：

我同意。早期確實更像一個松散的、甚至有點學術氣質的團體。當時有很多研究項目，往往是由個人興趣驅動的。很多人是一兩個人一組，做某個研究課題，最后可能產出一篇論文或博客。

最初幾年，OpenAI 很大程度上就是這種氛圍。

當然，我們從一開始也有一個想法：相比學術界，我們可以通過更強的工程能力和更大的團隊協作，把項目推進得更遠。這一點也受到了 DeepMind（比如 AlphaGo）的影響。

所以整體來說，OpenAI 一直是兩種模式的混合：

小規模、探索性的研究項目
大規模、工程驅動的重點項目

而顯然，并不是所有項目都會成功。事實上，大多數研究項目最終都不會成為技術主線的一部分。

一個比較典型的失敗項目是一個叫 Universe 的早期項目。

它的設想是：構建一個包含大量 RL 環境的數據集——視頻游戲、網頁導航任務等等；如果你在所有這些環境上聯合訓練，就能學到一種真正通用的強化學習智能體。

現在回頭看，我甚至覺得這個想法本身是深刻正確的，只是至少早了十年。當時很多關鍵前置條件都不存在。

結果是系統極其笨重，不適合做 RL 實驗，而且模型都是從零訓練的，泛化能力也很弱。

后來我們發現，把問題收縮到可控范圍更有效。比如我后來負責的 RL 團隊，專注于模擬器中的視頻游戲環境，而不是“電腦前能做的一切”。這就好很多。

還有一些項目，比如機器人方向，對公司主線來說算是死胡同，但在長期上對培養工程和研究能力仍然有價值。

主持人：

在 2020 年之前，OpenAI 最大的工程項目是什么樣的？有沒有哪個研究基礎設施系統特別復雜、特別關鍵，或者經常把研究員折磨得很慘？

John Schulman：

Dota 項目可能是最早一個真正意義上的大型成功項目，用到了大量算力。

這類項目通常是兩部分結合：一部分是 ML 系統工程（龐大的代碼庫和訓練系統），另一部分是 特定范式下的研究（比如大規模 RL）。

工程上既包括如何接管 Dota、構建訓練環境，也包括訓練系統本身：并行 rollout、異步 RL、大規模訓練等。理論上這些應當解耦，但現實中往往很難完全分開。

主持人：

你如何定義一個理想的研究型管理者？在 ML 這種“新型大科學”環境里，團隊越來越大、個性差異巨大，這個角色似乎非常特殊。

John Schulman：

這是個很難的問題，因為我見過完全不同的管理風格都能成功，而且這個問題本身也是非平穩的，七八年前有效的方式，今天可能已經不合適了。

我見過兩種典型模式：

高度技術參與型管理者親自寫代碼、讀所有代碼、給出非常具體的技術反饋。
高度放手型管理者更像是教練或顧問，關注職業發展、動機和方向，而不是技術細節。

如果是探索性研究、成員經驗豐富，放手往往更好；如果目標明確、團隊經驗不足，或者執行壓力大，更強的技術管理可能更合適。

主持人：

OpenAI 的 “Member of Technical Staff” 這個說法，是否受到 Bell Labs 的影響？你們是否從 Xerox PARC、Bell Labs 這些歷史研究機構中汲取靈感？

John Schulman：

坦率說，并沒有特別系統地研究這些機構。

實際上，我們更多是受到自己過往經歷的影響——研究生階段、Google Brain、DeepMind。幾乎所有人都在 Google 工作過某個階段。

確實有人討論過曼哈頓計劃之類的例子，但并不存在一個刻意復刻歷史研究機構的設計。

主持人：

你如何比較早期 OpenAI、Anthropic、Thinking Machines、Google 這些環境？它們分別更適合解決什么樣的問題？

John Schulman：

這是一個非常宏大的問題，而且這些組織都在不斷變化。

但我會說，早期 OpenAI 和現在的 Thinking Machines 其實有相似之處：很多項目并行推進，公司的整體愿景是從這些項目中“涌現”出來的。

不同的是：早期 OpenAI 處在一個相對“和平時期”，沒有一個所有人都在追逐的明確 scaling 軸；而現在的新公司往往必須先追趕 SOTA，才能談探索。

我一直非常警惕一件事，如果一個組織長期只處在“追趕模式”，是很難在之后建立起真正的探索性研究文化和能力的。而這種文化，是需要從一開始就慢慢培養的。

如何看待強化學習和持續學習

主持人：

為什么現在強化學習里，價值函數好像不太流行了？

John Schulman：

我覺得一個主要原因是：在當前人們實際在做的 RL 場景中，價值函數并沒有帶來太多幫助。

比如現在常見的設置包括：基于人類反饋的強化學習（RLHF）、在可驗證獎勵上的 RL，而且這些任務的時間跨度相對較短。

當然，我不想簡單地說“現在我們只在做短時間跨度的任務”，因為如果你一次采樣的是上萬 token，那其實已經是一個相當長的時間尺度了。

但總體來看，在當前這批 RL 任務上，價值函數似乎就是沒有發揮出太大作用。原因并不是特別清楚。

從理論上說，價值函數的主要作用是降低方差，而在我們現在關心的這些任務里，似乎并沒有獲得太多方差降低的收益。相比之下，在一些傳統的 RL 研究任務中，價值函數的方差降低效果是非常顯著的。

至于為什么會出現這種差異，我也說不出一個明確的原因。但我個人預計價值函數未來還會重新回到舞臺中央。

主持人：

你覺得持續學習問題最終會怎么解決？你認為 LoRA 會在其中扮演重要角色嗎？

John Schulman：

我覺得“持續學習”這個概念本身可以指很多不同的東西。如果用心理學作類比：有運動學習、有情景記憶、有程序性知識，不同類型的學習，可能需要完全不同的機制。

我預計上下文內學習和上下文管理會持續改進，長上下文能力仍然會非常重要。至于 LoRA，我更傾向于認為它會疊加在這些能力之上。

也就是說，參數級微調會在某些記憶類型上更有效，尤其是那些需要大量容量、需要吸收大量知識的場景。但到底哪些任務最適合參數微調，其實并不完全清楚。

主持人：

你覺得，僅靠把合適的內容放進上下文窗口，再加一點參數微調，真的足以支撐模型部署到現實世界，并在運行中持續學新東西嗎？還是說我們最終還需要一些完全不同的思路？

John Schulman：

這其實很難判斷。一方面，如果我們持續擴大模型規模、持續提升模型能力，那么幾乎所有我們定義的指標都會自然變好。甚至有可能即使我們不改變方法論、不做參數微調，隨著規模增長，也會“順帶”解決很多問題。

但另一方面，也很可能會出現一些新方法，它們能更快解決同樣的問題，甚至帶來不同的 scaling law：

要么是一個固定倍數的“有效算力提升”
要么是直接改變 scaling 曲線的斜率

所以我確實能想象，某些新方法可以帶來更高效的持續學習能力。

我的直覺是，在短時間尺度上，上下文學習非常強，幾乎無可替代；而更長時間尺度上，權重更新最終會勝出。

圖片

主持人：

你是否擔心“泛化能力不足”會成為實現通用 AI 的真正障礙？會不會出現這樣的情況：預訓練把模型推到一個高度，然后 RL 只在它訓練過的分布里有效，跨領域遷移能力很弱？

John Schulman：

這是一個很難清晰回答的問題。一方面，在上下文學習場景中，模型的樣本效率非常高，在某些方面甚至可以達到或超過人類。但另一方面，確實存在一些學習類型，模型所需的數據量遠遠超過人類才能學會同樣的東西。

所以可以說，在某些方面，模型比人類脆弱得多，但要精確描述“脆弱性究竟體現在哪里”，其實并不容易。

人類在長時間尺度上的表現明顯更強，這很大程度上是因為我們經過進化，被優化用于一個80 年左右的時間跨度。我們擁有大量自我糾錯機制。人類當然不完美，但在糾錯方面確實做得相當好。而且只要你給人一個目標和動機，他們會非常有資源性，嘗試各種不同路徑。

模型也可以非常“堅持”，有時甚至比人類更堅持；但它們在執行大塊任務時，更容易陷入某種局部狀態，難以跳出來。

所以問題在于：這只是一個暫時現象？模型的時間跨度是否即將大幅提升？還是說這是一個需要非常長時間才能追平人類的根本性弱點？

而這個問題本身幾乎無法快速驗證，如果討論的是幾十年的時間跨度，那就真的需要幾十年才能觀察。

主持人：

如果未來越來越多地采用“生成器 + 判別器 / 驗證器”共同訓練的方式，比如用模型來給模型打分、判斷獎勵，你覺得 GAN 時代的哪些想法會重新變得重要嗎？

John Schulman：

我非常認同聯合訓練生成器和驗證器這個方向。理論上，你可以形成一種自我強化循環：如果驗證器本身具備推理能力、指令理解能力，并用它來給生成模型提供學習信號，那么生成模型越強，驗證器也越強，形成一個良性循環。

我也非常喜歡多智能體訓練、博弈這類思路。博弈有很多非常好的性質：自動課程學習，如果你和“自己”的拷貝對戰，對手會隨著你一起變強。

從理論計算機科學的角度，也有很多理由支持這種方式：有一些復雜度類別，本身就是通過雙人零和博弈來定義的。你可以用一個計算上很便宜的機制，設計一個博弈，使得其均衡解對應于解決一個非常困難的問題。

這在對齊文獻中也出現過，比如 辯論模型。我一直覺得這是個非常有說服力的想法，而且我預計這類思路未來會越來越重要。

今天如何做研究：把 LLM 融入到研究流程中

主持人：

你認為在 2019 或 2020 年做有效研究所需要的技能，和現在相比有什么變化嗎？尤其是你在 2020 年寫過一篇關于“如何做有效研究”的博客。你現在是否有新的建議？還是說你認為那篇文章基本經得起時間考驗？

John Schulman：

回顧那篇博客，我當時談到了幾類研究方式，比如目標導向型研究，以及更偏理想化的研究；還提到要堅持記錄研究筆記，以及通過大量閱讀論文來培養研究品味。我認為這些建議總體上依然成立，到今天我仍然認可它們。

如果說有什么變化，我覺得實驗室筆記現在反而比以前更重要了。因為在有了大語言模型之后，“上下文”變得極其關鍵。如果你希望得到高質量的反饋，其實可以直接把你的研究筆記貼給模型，讓它基于完整背景給你建議。

如果一定要說最大的變化，那就是：現在你需要認真思考如何把 LLM 融入到自己的研究流程中。但說實話，我自己也沒有完全想清楚，除了那些能普遍提升工程效率的方法之外，究竟什么才是“專門用于加速研究”的最佳方式。這一點并不顯然。

圖片

我覺得研究和其他軟件工程工作之間，建議可能是不同的。因為中，我認為理解代碼的每一行究竟在做什么非常重要。相比讓模型一次性寫出大量你從未仔細閱讀過的代碼，一個你完全理解、結構非常簡單的實現，往往更有價值。

那種“AI我認為輔助編程”的方式，你只給一個規格說明，讓模型把整個實現都寫出來，在某些工程領域可能非常有效。但在研究中，真正做出最好成果的人，往往對系統的每一個細節、每一行代碼都了如指掌，這種對“底層機制”的理解，自 2012 年以來一直都是高質量研究的共同特征。

工程能力的重要性明顯上升

主持人：

自 2020 年規模定律興起以來，無論學界還是工業界，進入 ML 領域的研究者數量都大幅增加。但看起來，真正“改變格局”的核心想法出現的頻率似乎并沒有明顯加快。你如何看待這種現象？

John Schulman：

我對“量化科學進展速度”這類問題一向比較謹慎。首先，早期的低垂果實會被逐步摘完；其次，對于最近幾年發生的事情，我們其實還不知道哪些想法最終會被證明是重要的，因此很難準確評估。

所以我并不太愿意直接下結論說：即便研究人員數量大幅增加，進展速度仍然是恒定的、沒有加速的。如果你回顧 70、80、90 年代的論文，會發現當時的實驗嚴謹性明顯更低。如今，在實驗設計、基線對比、跨任務驗證等方面，標準已經高了很多。

過去你可能會看到一篇強化學習論文，提出了一套非常復雜的想法，但只在一個非常簡單、甚至有些可疑的玩具任務上做了一個實驗，而那樣的論文仍然可能成為經典。那時很多數學思想本身也并不算特別成熟。

因此，我一點也不驚訝：隨著研究者數量的增加，想法產生的速度實際上是提升了的，同時研究質量和標準在某些方面也顯著提高了。這基本符合我的直覺。

主持人：

那你如何看待學術出版體系？相比大型 AI 公司內部通過 Slack、內部報告等方式進行的“同行評審”，你覺得二者各自有什么優劣？有沒有什么經驗可以從工業界遷移到開放學術界？

John Schulman：

這是一個很有意思的問題。我會說，大型研究實驗室內部對結果的評估，在某些方面比學術出版體系更好，在另一些方面則更差。

好的地方在于：內部研究往往更擅長得出真實、可靠的結論，例如什么真的能改進預訓練效果。這些實驗通常更貼近真實目標，而不是為了“發論文”。成功的公司在方法論上確實更成熟。

圖片

但問題在于：幾乎沒有人會在公司內部寫出和學術論文同樣詳細的技術報告。內部文檔通常不會那么完整、系統。雖然結論在“準確性”上可能更高，但實驗的全面性往往不如最好的學術論文，比如不會系統性地嘗試大量基線。

當然，學術論文里也經常存在“被削弱的基線”，結果并不完全可信。但至少在最優秀的工作中，確實能看到非常扎實、全面的比較。

總體來看，學術界的寫作更詳盡、某些方面更全面，但準確性可能較低；工業界則相反。我個人一直很希望能在這些機構中推動更好的研究寫作文化，鼓勵大家寫真正深入科學本身的技術報告，而不是只記錄“可交付的最小改進”。但這和公司的激勵機制之間確實存在張力。

主持人：

進入這個領域的研究者本身，有沒有發生變化？相比 2015～2017 年，現在的人在能力結構、工程水平、創造性等方面是否不同？

John Schulman：

我會說，早期進入這個領域的人整體上更“怪”一點。現在大家都很清楚：AI 是一件極其重要的事情，因此會吸引更多走傳統職業路徑、風險偏好更低的人。

很難直接比較兩代人的“人才分布”，但僅從數量上看，進入門檻確實變高了，因為競爭者實在太多了。

我還認為，如今工程能力的重要性明顯上升，相對而言，研究品味和純探索式研究能力的重要性下降了一些。這是因為一方面，規模化本身就能帶來大量改進；另一方面，領域已經成熟，你通常是在大型現有代碼庫和基礎設施上工作，而不是在 Jupyter Notebook 里從零寫代碼。

圖片

因此，在今天，具有扎實軟件工程背景的人往往更具優勢。

如何看待強化學習的未來

主持人：

你如何看待強化學習研究的未來？在語言模型中，真正奏效的方法看起來反而相當簡單，而且和其他領域成功的方法非常相似。你覺得 RL 研究還有多少空間？未來最強的 RL+LM 系統會和過去的思路有本質不同嗎？

John Schulman

正如你說的，很多想法會反復流行。有些概念出現得太早，沒能兌現承諾，但后來又在新的背景下重新變得重要。我預計這種情況還會繼續發生。

很難預測哪些想法最終會最重要，但我認為離線強化學習是一組非常有潛力的方向。在某種程度上，我們現在在 LLM 領域做的事情，很像機器人領域中的“仿真到現實”：在大量模擬環境中進行大規模訓練，通過足夠的多樣性實現泛化。

圖片

事實上，sim-to-real 在機器人領域仍然非常有效，并沒有被否定。同時，我也認為從真實世界中學習依然極其重要。我預計，未來在 LLM 的部署階段，我們還會重新探索如何更好地從真實交互中進行學習。

主持人：

如果一些最大的 AI 實驗室真的開發出了非常、非常強大的 AI 系統，強大到必須彼此協調，并且還需要與政府等社會中其他關鍵機構進行協調，你對它們是否能夠順利合作有多大信心？你又有多擔心它們最終無法協調、無法達成一致？

John Schulman：

我的感覺是介于“擔心”和“有信心”之間，大概算是中等程度吧。

我會說，在領先的 AI 實驗室之間，在總體世界觀和愿景層面，還是存在相當程度的共識的。此外，最近一段時間，這些實驗室之間在安全相關的問題上，也確實已經有了一些合作。

不過，我也必須承認，實驗室之間確實存在一些“歷史恩怨”或者說人際層面的緊張關系。這些涉及到具體個人和性格的問題，可能會讓協調變得更困難一些。

但總體而言，如果未來有一天，這種跨實驗室、跨機構協調被明確地視為“這是正確的、必須要做的事情”，那我認為它是有可能運作起來的。

AGI會比預測來得慢2-3倍

主持人：

在這樣一個技術進步速度極快的時期，關于 AI 未來發展的討論非常多，尤其是關于“AI 會多快變得更強”以及“AGI 什么時候到來”的預測。很多人談論 AGI 時，指的是這樣一種狀態：幾乎所有基于計算機的知識工作，都可以由 AI 而不是人類來完成。

你如何看待這些時間表預測？你是否認為它們系統性地低估了實現 AGI 所需的時間？

John Schulman：

我過去思考這個問題的一種方式是：AGI 看起來像是一個極其龐大、復雜的工程與研究項目。而根據我個人的經驗，工程師和研究人員在預測項目完成時間方面，往往表現得非常糟糕，即便是在遠比 AGI 小得多的項目上也是如此。

我觀察到的一種非常一致的系統性偏差是：工程師幾乎總是認為事情會比實際情況更早完成。如果讓我給一個經驗法則，我可能會說：你需要在他們給出的時間預測基礎上，再乘以一個 2 到 3 倍的系數，才能更接近真實的完成時間。

圖片

從這個角度看，我認為這確實是對很多 AGI 時間線預測的一個合理批評。基于這種啟發式規則，推斷 AGI 比很多人預測的時間要更晚一些，我覺得是有道理的。

一個最接近的類比案例，可能是自動駕駛。我們已經看到，全自動駕駛、Robotaxi 等目標，花費的時間明顯比早期人們預期的要長得多。所以從這個角度來說，我認為“AGI 會比預測更慢”是一個合理的假設。

但另一方面，也確實存在一個可能打破直覺的因素：AI 會反過來加速自身的研發過程，形成正反饋循環。那些把這種“自我加速效應”納入考慮的人，往往會得出相當短的時間線預測，而我也認為這是一條有一定說服力的推理路徑。

最終的問題在于：AI 究竟能在多大程度上提升研發效率？是否會出現瓶頸，比如人類是否還能理解系統內部發生了什么？這些因素的不確定性都非常大。

所以老實說，我不會對 AGI 的時間點做出非常自信的預測。

關于 Thinking Machine和Tinker

主持人：

你和 Thinking Machines 最近發布了 Tinker。它是什么？主要是為誰設計的？

John Schulman

Tinker 是一個偏底層的微調API。它提供了一小組低層次的原語，用于訓練和采樣，但足以表達你可能想要實現的幾乎所有后訓練算法。

與此同時，它幫你屏蔽掉了很多底層復雜性：你不需要關心 GPU 或其他加速器，也不需要操心分布式系統相關的大量工程問題。

我們認為這是一個非常合適的抽象層級。一般來說，人們并不太會把“模型訓練”當成一種服務來使用；而現有的訓練服務通常又是非常高層的。所以在這個層級上做成服務，本身是比較新穎的。

一個最接近的類比，其實是你今天使用 OpenAI、Anthropic 等提供的模型采樣 API：你不需要自己搭建 GPU 服務器，只需要在 Python 或 JavaScript 里發起一次 API 調用即可。Tinker 希望在“訓練”這件事上，提供類似的體驗。

主持人：

你的目標是否是：未來一群研究者成立新的 AI 公司時，可以直接基于 Tinker 來構建？

John Schulman：

是的，我確實希望如此。我希望很多公司都可以直接構建在 Tinker 之上，而不必再從零開始搭建自己的基礎設施。你可以在 Tinker 的基礎上構建非常復雜、定制化的模型。

圖片

至于“它適合誰”，我會說：在當前階段，Tinker 更適合那些在機器學習方面已經相當成熟的用戶，也就是那些愿意直接接觸和使用底層原語的人。

當然，我們也提供了大量與 Tinker 配套的開源代碼，所以你并不一定要從頭實現所有訓練算法。但總體來說，Tinker 最適合那些愿意深入理解細節、愿意“下探到底層”的人。

隨著時間推移，我們會讓 Tinker 變得越來越易用，在其之上構建更多工具和更高層的組件。最終的目標是：即使你不是 ML 專家，也可以使用它。你只需要清楚自己要解決什么業務問題，或者你希望構建什么樣的模型，其余的事情可以交給我們提供的軟件來完成。

主持人：

未來一年左右，我們可以期待 Thinking Machines 帶來什么？有什么可以公開分享的嗎？

John Schulman：

你們會在明年看到一些我們自己訓練和發布的模型。同時，在 Tinker 方面，我們也會持續改進：增加更多模型功能，支持多模態訓練與輸入輸出，并顯著提升可支持的任務規模。

參考鏈接：https://www.youtube.com/watch?v=29BYxvvF1iM

責任編輯：武曉燕來源： 51CTO技術棧

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

OpenAI前聯合創始人深度復盤：2018年就能做出ChatGPT，實現AGI會比預測晚2-3倍，上下文學習短時間內無可替代！

ChatGPT可以更早做出來

早期OpenAI像個“學術草臺班子”

如何看待強化學習和持續學習

今天如何做研究：把 LLM 融入到研究流程中

工程能力的重要性明顯上升

如何看待強化學習的未來

AGI會比預測來得慢2-3倍

關于 Thinking Machine和Tinker