編輯 | 聽雨
出品 | 51CTO技術棧(微信號:blog51cto)
“如果早知道 Scaling 的回報這么高,那ChatGPT完全可以更早做出來!”
這是OpenAI的前聯合創始人、Thinking Machines首席科學家John Schulman 在最新采訪中的論斷。
以他的判斷,放在2018-2019年,只要幾位非常優秀的人工作一年左右,就可以做出接近 ChatGPT-3.5 的系統。

這里簡單介紹一下,John Schulman是強化學習領域的重量級人物。他是OpenAI 的聯合創始人,前期在OpenAI領導強化學習團隊,開發了著名的PPO算法(近端策略優化)和TRPO(信任區域策略優化 )算法,并與Ilya Sutskever共同領導超級對齊團隊,負責ChatGPT的后訓練。
Schulman 在博士期間師從強化學習大牛、曾經吳恩達的第一批博士生Pieter Abbeel。他的代表作、也是最高引論文PPO發表于2017年,這是ChatGPT核心技術RLHF中選用的強化學習算法。
圖片
Schulman于2024年8月起短暫加入了Anthropic,之后又加入OpenAI 前 CTO Mira Murati 創辦的Thinking Machines Lab,并擔任首席科學家。
本期訪談的主持人是 Cursor 首席執行官 Michael Truell,他與 Schulman 一起回顧了OpenAI的發家史。
早期的OpenAI是一個松散、非正式、偏學術的組織,有很多時間進行探索,因此能夠產生公司整體愿景的“涌現”—— Schulman 透露現在的Thinking Machines和當時的OpenAI很相似。
Schulman 指出,現在的新公司往往必須先追趕 SOTA,才能談探索,這并不是一件好事:
我一直非常警惕一件事,如果一個組織長期只處在“追趕模式”,是很難在之后建立起真正的探索性研究文化和能力的。
Schulman 還談論了強化學習的規模化。他指出在當前 RLHF 場景中,傳統的價值函數并沒有發揮太大作用,但預計未來仍有可能重新回到舞臺中央。同時,上下文學習在短時間尺度幾乎無可替代,而長期記憶和持續學習,最終仍需要權重更新和參數微調來支撐。
有關最近討論得十分火熱的“AGI時間表”,Schulman則潑了一盆冷水:他認為按照經驗法則,AGI 的真正到來可能比大多數預測慢 2–3 倍。
對于進入AI領域的研究人才,Schulman 強調工程能力的重要性顯著上升,而純探索式研究和個人品味的重要性相對下降。他指出,在今天具有扎實軟件工程背景的人往往更具優勢。
有關未來的訓練范式,Schulman 認為聯合訓練生成器與驗證器、多智能體博弈訓練,可能會成為未來 LLM 和 RL 系統的核心方法。此外,離線強化學習也是 Schulman 看來非常有潛力的方向。
最后,Schulman 也預告了一波 Thinking Machines 的研究進展:明年將發布新模型;在 Tinker 方面將增加更多模型功能,支持多模態訓練與輸入輸出,并顯著提升可支持的任務規模。
小編整理了整期對話實錄,在不改變原意的情況下做了部分刪減和潤色,enjoy!
ChatGPT可以更早做出來
主持人:
如果最早創建 OpenAI 的那批人回到 2015、2016 年,目標是極速通關做出 ChatGPT,那么你覺得最快能有多快?以及,真正限制他們更快做到這一點的瓶頸是什么?如果他們有“完全的后見之明”,會采取哪些不同于歷史實際發生的關鍵決策?
John Schulman:
我認為,如果目標是用更少的算力做出類似 ChatGPT 的東西,其實是可以做到的。我們已經看到像 nanoGPT 這樣的例子。
有時候,用更多算力做事情更直接;但如果你愿意引入更多巧妙的工程和訓練技巧,同樣的效果也可以用更少算力實現。
另外,如果我們當時知道 scaling 的回報會這么高,那其實是可以更早、更激進地擴展規模的。
如果你真的提前知道完整配方,那么幾乎肯定可以更早做出來。你可以直接搭建一個大集群,先預訓練一個模型;然后結合我們現在對后訓練的理解,通過更好的微調和數據構造,大幅“放大有效算力”。
即使你需要一個 GPT-3 級別的模型才能得到一個不錯的 few-shot 對話模型,只要你愿意在微調和數據構造上花足夠心思,其實可以讓一個更小的模型表現得非常好。
(注:nanoGPT 是 Andrej Karpathy 創建的一個用于對中等規模的生成式預訓練Transformer進行訓練和調優的框架)
主持人:
你覺得需要多少人?大概在哪一年能做到?以及需要多少 GPU?
John Schulman:
如果我們假設完全的后見之明的話,nanoGPT 基本上是一個人寫的,在一臺機器上跑,大概花了半年時間。這至少給出了一個上限。
當然,這是在 H100 上跑的;如果回到更早的年代,可能只能用 V100 之類的硬件。但即便如此,我認為如果有幾臺 GPU 機器,還是可以做到一些東西的。
我猜,在 2018 或 2019 年,只要有幾位非常優秀的人,工作一年左右,就有可能做出一個接近 ChatGPT-3.5 水平的系統。當然,我可能低估了整個技術棧中不同部分的復雜性。
圖片
而且這也建立在一個前提之上:你是站在別人已經構建好的預訓練數據集和網頁抓取成果之上的。
所以我并沒有完全想透這個問題,但我的直覺是:2018–2019 年,少數幾個人,是有可能做到 GPT-3.5 級別的東西的。
而且未來甚至可能更極端,也許會出現那種“demo scene”風格的 ChatGPT:一個文件,自動抓取網頁、自動訓練模型,一天內完成全部流程。
早期OpenAI像個“學術草臺班子”
主持人:
現在 OpenAI 從市值和資本開支角度看,已經是世界上最大的公司之一了。但人們很容易忽略的是,早期 OpenAI 其實是一個非常非正式、甚至有點“草臺班子”的團隊。你同意這種看法嗎?能不能幫我們具體描繪一下 2016–2017 年左右的 OpenAI 是什么樣子?
另外,你能否分享一個完全失敗的早期項目,一個現在在 2025 年幾乎沒人再提起的“死胡同”?
John Schulman:
我同意。早期確實更像一個松散的、甚至有點學術氣質的團體。當時有很多研究項目,往往是由個人興趣驅動的。很多人是一兩個人一組,做某個研究課題,最后可能產出一篇論文或博客。
最初幾年,OpenAI 很大程度上就是這種氛圍。
當然,我們從一開始也有一個想法:相比學術界,我們可以通過更強的工程能力和更大的團隊協作,把項目推進得更遠。這一點也受到了 DeepMind(比如 AlphaGo)的影響。
所以整體來說,OpenAI 一直是兩種模式的混合:
- 小規模、探索性的研究項目
- 大規模、工程驅動的重點項目
而顯然,并不是所有項目都會成功。事實上,大多數研究項目最終都不會成為技術主線的一部分。
一個比較典型的失敗項目是一個叫 Universe 的早期項目。
它的設想是:構建一個包含大量 RL 環境的數據集——視頻游戲、網頁導航任務等等;如果你在所有這些環境上聯合訓練,就能學到一種真正通用的強化學習智能體。
現在回頭看,我甚至覺得這個想法本身是深刻正確的,只是至少早了十年。當時很多關鍵前置條件都不存在。
結果是系統極其笨重,不適合做 RL 實驗,而且模型都是從零訓練的,泛化能力也很弱。
后來我們發現,把問題收縮到可控范圍更有效。比如我后來負責的 RL 團隊,專注于模擬器中的視頻游戲環境,而不是“電腦前能做的一切”。這就好很多。
還有一些項目,比如機器人方向,對公司主線來說算是死胡同,但在長期上對培養工程和研究能力仍然有價值。
主持人:
在 2020 年之前,OpenAI 最大的工程項目是什么樣的?有沒有哪個研究基礎設施系統特別復雜、特別關鍵,或者經常把研究員折磨得很慘?

John Schulman:
Dota 項目可能是最早一個真正意義上的大型成功項目,用到了大量算力。
這類項目通常是兩部分結合:一部分是 ML 系統工程(龐大的代碼庫和訓練系統),另一部分是 特定范式下的研究(比如大規模 RL)。
工程上既包括如何接管 Dota、構建訓練環境,也包括訓練系統本身:并行 rollout、異步 RL、大規模訓練等。理論上這些應當解耦,但現實中往往很難完全分開。
主持人:
你如何定義一個理想的研究型管理者?在 ML 這種“新型大科學”環境里,團隊越來越大、個性差異巨大,這個角色似乎非常特殊。
John Schulman:
這是個很難的問題,因為我見過完全不同的管理風格都能成功,而且這個問題本身也是非平穩的,七八年前有效的方式,今天可能已經不合適了。
我見過兩種典型模式:
- 高度技術參與型管理者親自寫代碼、讀所有代碼、給出非常具體的技術反饋。
- 高度放手型管理者更像是教練或顧問,關注職業發展、動機和方向,而不是技術細節。
如果是探索性研究、成員經驗豐富,放手往往更好;如果目標明確、團隊經驗不足,或者執行壓力大,更強的技術管理可能更合適。
主持人:
OpenAI 的 “Member of Technical Staff” 這個說法,是否受到 Bell Labs 的影響?你們是否從 Xerox PARC、Bell Labs 這些歷史研究機構中汲取靈感?
John Schulman:
坦率說,并沒有特別系統地研究這些機構。
實際上,我們更多是受到自己過往經歷的影響——研究生階段、Google Brain、DeepMind。幾乎所有人都在 Google 工作過某個階段。
確實有人討論過曼哈頓計劃之類的例子,但并不存在一個刻意復刻歷史研究機構的設計。
主持人:
你如何比較早期 OpenAI、Anthropic、Thinking Machines、Google 這些環境?它們分別更適合解決什么樣的問題?
John Schulman:
這是一個非常宏大的問題,而且這些組織都在不斷變化。
但我會說,早期 OpenAI 和現在的 Thinking Machines 其實有相似之處:很多項目并行推進,公司的整體愿景是從這些項目中“涌現”出來的。
不同的是:早期 OpenAI 處在一個相對“和平時期”,沒有一個所有人都在追逐的明確 scaling 軸;而現在的新公司往往必須先追趕 SOTA,才能談探索。

我一直非常警惕一件事,如果一個組織長期只處在“追趕模式”,是很難在之后建立起真正的探索性研究文化和能力的。而這種文化,是需要從一開始就慢慢培養的。
如何看待強化學習和持續學習
主持人:
為什么現在強化學習里,價值函數好像不太流行了?
John Schulman:
我覺得一個主要原因是:在當前人們實際在做的 RL 場景中,價值函數并沒有帶來太多幫助。
比如現在常見的設置包括:基于人類反饋的強化學習(RLHF)、在可驗證獎勵上的 RL,而且這些任務的時間跨度相對較短。
當然,我不想簡單地說“現在我們只在做短時間跨度的任務”,因為如果你一次采樣的是上萬 token,那其實已經是一個相當長的時間尺度了。
但總體來看,在當前這批 RL 任務上,價值函數似乎就是沒有發揮出太大作用。原因并不是特別清楚。
從理論上說,價值函數的主要作用是降低方差,而在我們現在關心的這些任務里,似乎并沒有獲得太多方差降低的收益。相比之下,在一些傳統的 RL 研究任務中,價值函數的方差降低效果是非常顯著的。
至于為什么會出現這種差異,我也說不出一個明確的原因。但我個人預計價值函數未來還會重新回到舞臺中央。
主持人:
你覺得持續學習問題最終會怎么解決?你認為 LoRA 會在其中扮演重要角色嗎?
John Schulman:
我覺得“持續學習”這個概念本身可以指很多不同的東西。如果用心理學作類比:有運動學習、有情景記憶、有程序性知識,不同類型的學習,可能需要完全不同的機制。
我預計上下文內學習和上下文管理會持續改進,長上下文能力仍然會非常重要。至于 LoRA,我更傾向于認為它會疊加在這些能力之上。

也就是說,參數級微調會在某些記憶類型上更有效,尤其是那些需要大量容量、需要吸收大量知識的場景。但到底哪些任務最適合參數微調,其實并不完全清楚。
主持人:
你覺得,僅靠把合適的內容放進上下文窗口,再加一點參數微調,真的足以支撐模型部署到現實世界,并在運行中持續學新東西嗎?還是說我們最終還需要一些完全不同的思路?
John Schulman:
這其實很難判斷。一方面,如果我們持續擴大模型規模、持續提升模型能力,那么幾乎所有我們定義的指標都會自然變好。甚至有可能即使我們不改變方法論、不做參數微調,隨著規模增長,也會“順帶”解決很多問題。
但另一方面,也很可能會出現一些新方法,它們能更快解決同樣的問題,甚至帶來不同的 scaling law:
- 要么是一個固定倍數的“有效算力提升”
- 要么是直接改變 scaling 曲線的斜率
所以我確實能想象,某些新方法可以帶來更高效的持續學習能力。
我的直覺是,在短時間尺度上,上下文學習非常強,幾乎無可替代;而更長時間尺度上,權重更新最終會勝出。
圖片
主持人:
你是否擔心“泛化能力不足”會成為實現通用 AI 的真正障礙?會不會出現這樣的情況:預訓練把模型推到一個高度,然后 RL 只在它訓練過的分布里有效,跨領域遷移能力很弱?
John Schulman:
這是一個很難清晰回答的問題。一方面,在上下文學習場景中,模型的樣本效率非常高,在某些方面甚至可以達到或超過人類。但另一方面,確實存在一些學習類型,模型所需的數據量遠遠超過人類才能學會同樣的東西。
所以可以說,在某些方面,模型比人類脆弱得多,但要精確描述“脆弱性究竟體現在哪里”,其實并不容易。
人類在長時間尺度上的表現明顯更強,這很大程度上是因為我們經過進化,被優化用于一個80 年左右的時間跨度。我們擁有大量自我糾錯機制。人類當然不完美,但在糾錯方面確實做得相當好。而且只要你給人一個目標和動機,他們會非常有資源性,嘗試各種不同路徑。
模型也可以非常“堅持”,有時甚至比人類更堅持;但它們在執行大塊任務時,更容易陷入某種局部狀態,難以跳出來。
所以問題在于:這只是一個暫時現象?模型的時間跨度是否即將大幅提升?還是說這是一個需要非常長時間才能追平人類的根本性弱點?
而這個問題本身幾乎無法快速驗證,如果討論的是幾十年的時間跨度,那就真的需要幾十年才能觀察。
主持人:
如果未來越來越多地采用“生成器 + 判別器 / 驗證器”共同訓練的方式,比如用模型來給模型打分、判斷獎勵,你覺得 GAN 時代的哪些想法會重新變得重要嗎?
John Schulman:
我非常認同聯合訓練生成器和驗證器這個方向。理論上,你可以形成一種自我強化循環:如果驗證器本身具備推理能力、指令理解能力,并用它來給生成模型提供學習信號,那么生成模型越強,驗證器也越強,形成一個良性循環。
我也非常喜歡多智能體訓練、博弈這類思路。博弈有很多非常好的性質:自動課程學習,如果你和“自己”的拷貝對戰,對手會隨著你一起變強。
從理論計算機科學的角度,也有很多理由支持這種方式:有一些復雜度類別,本身就是通過雙人零和博弈來定義的。你可以用一個計算上很便宜的機制,設計一個博弈,使得其均衡解對應于解決一個非常困難的問題。
這在對齊文獻中也出現過,比如 辯論模型。我一直覺得這是個非常有說服力的想法,而且我預計這類思路未來會越來越重要。
今天如何做研究:把 LLM 融入到研究流程中
主持人:
你認為在 2019 或 2020 年做有效研究所需要的技能,和現在相比有什么變化嗎?尤其是你在 2020 年寫過一篇關于“如何做有效研究”的博客。你現在是否有新的建議?還是說你認為那篇文章基本經得起時間考驗?
John Schulman:
回顧那篇博客,我當時談到了幾類研究方式,比如目標導向型研究,以及更偏理想化的研究;還提到要堅持記錄研究筆記,以及通過大量閱讀論文來培養研究品味。我認為這些建議總體上依然成立,到今天我仍然認可它們。
如果說有什么變化,我覺得實驗室筆記現在反而比以前更重要了。因為在有了大語言模型之后,“上下文”變得極其關鍵。如果你希望得到高質量的反饋,其實可以直接把你的研究筆記貼給模型,讓它基于完整背景給你建議。
如果一定要說最大的變化,那就是:現在你需要認真思考如何把 LLM 融入到自己的研究流程中。但說實話,我自己也沒有完全想清楚,除了那些能普遍提升工程效率的方法之外,究竟什么才是“專門用于加速研究”的最佳方式。這一點并不顯然。
圖片
我覺得研究和其他軟件工程工作之間,建議可能是不同的。因為中,我認為理解代碼的每一行究竟在做什么非常重要。相比讓模型一次性寫出大量你從未仔細閱讀過的代碼,一個你完全理解、結構非常簡單的實現,往往更有價值。
那種“AI我認為 輔助編程”的方式,你只給一個規格說明,讓模型把整個實現都寫出來,在某些工程領域可能非常有效。但在研究中,真正做出最好成果的人,往往對系統的每一個細節、每一行代碼都了如指掌,這種對“底層機制”的理解,自 2012 年以來一直都是高質量研究的共同特征。
工程能力的重要性明顯上升
主持人:
自 2020 年規模定律興起以來,無論學界還是工業界,進入 ML 領域的研究者數量都大幅增加。但看起來,真正“改變格局”的核心想法出現的頻率似乎并沒有明顯加快。你如何看待這種現象?
John Schulman:
我對“量化科學進展速度”這類問題一向比較謹慎。首先,早期的低垂果實會被逐步摘完;其次,對于最近幾年發生的事情,我們其實還不知道哪些想法最終會被證明是重要的,因此很難準確評估。
所以我并不太愿意直接下結論說:即便研究人員數量大幅增加,進展速度仍然是恒定的、沒有加速的。如果你回顧 70、80、90 年代的論文,會發現當時的實驗嚴謹性明顯更低。如今,在實驗設計、基線對比、跨任務驗證等方面,標準已經高了很多。
過去你可能會看到一篇強化學習論文,提出了一套非常復雜的想法,但只在一個非常簡單、甚至有些可疑的玩具任務上做了一個實驗,而那樣的論文仍然可能成為經典。那時很多數學思想本身也并不算特別成熟。
因此,我一點也不驚訝:隨著研究者數量的增加,想法產生的速度實際上是提升了的,同時研究質量和標準在某些方面也顯著提高了。這基本符合我的直覺。
主持人:
那你如何看待學術出版體系?相比大型 AI 公司內部通過 Slack、內部報告等方式進行的“同行評審”,你覺得二者各自有什么優劣?有沒有什么經驗可以從工業界遷移到開放學術界?
John Schulman:
這是一個很有意思的問題。我會說,大型研究實驗室內部對結果的評估,在某些方面比學術出版體系更好,在另一些方面則更差。
好的地方在于:內部研究往往更擅長得出真實、可靠的結論,例如什么真的能改進預訓練效果。這些實驗通常更貼近真實目標,而不是為了“發論文”。成功的公司在方法論上確實更成熟。
圖片
但問題在于:幾乎沒有人會在公司內部寫出和學術論文同樣詳細的技術報告。內部文檔通常不會那么完整、系統。雖然結論在“準確性”上可能更高,但實驗的全面性往往不如最好的學術論文,比如不會系統性地嘗試大量基線。
當然,學術論文里也經常存在“被削弱的基線”,結果并不完全可信。但至少在最優秀的工作中,確實能看到非常扎實、全面的比較。
總體來看,學術界的寫作更詳盡、某些方面更全面,但準確性可能較低;工業界則相反。我個人一直很希望能在這些機構中推動更好的研究寫作文化,鼓勵大家寫真正深入科學本身的技術報告,而不是只記錄“可交付的最小改進”。但這和公司的激勵機制之間確實存在張力。
主持人:
進入這個領域的研究者本身,有沒有發生變化?相比 2015~2017 年,現在的人在能力結構、工程水平、創造性等方面是否不同?
John Schulman:
我會說,早期進入這個領域的人整體上更“怪”一點。現在大家都很清楚:AI 是一件極其重要的事情,因此會吸引更多走傳統職業路徑、風險偏好更低的人。
很難直接比較兩代人的“人才分布”,但僅從數量上看,進入門檻確實變高了,因為競爭者實在太多了。
我還認為,如今工程能力的重要性明顯上升,相對而言,研究品味和純探索式研究能力的重要性下降了一些。這是因為一方面,規模化本身就能帶來大量改進;另一方面,領域已經成熟,你通常是在大型現有代碼庫和基礎設施上工作,而不是在 Jupyter Notebook 里從零寫代碼。
圖片
因此,在今天,具有扎實軟件工程背景的人往往更具優勢。
如何看待強化學習的未來
主持人:
你如何看待強化學習研究的未來?在語言模型中,真正奏效的方法看起來反而相當簡單,而且和其他領域成功的方法非常相似。你覺得 RL 研究還有多少空間?未來最強的 RL+LM 系統會和過去的思路有本質不同嗎?
John Schulman
正如你說的,很多想法會反復流行。有些概念出現得太早,沒能兌現承諾,但后來又在新的背景下重新變得重要。我預計這種情況還會繼續發生。
很難預測哪些想法最終會最重要,但我認為離線強化學習是一組非常有潛力的方向。在某種程度上,我們現在在 LLM 領域做的事情,很像機器人領域中的“仿真到現實”:在大量模擬環境中進行大規模訓練,通過足夠的多樣性實現泛化。
圖片
事實上,sim-to-real 在機器人領域仍然非常有效,并沒有被否定。同時,我也認為從真實世界中學習依然極其重要。我預計,未來在 LLM 的部署階段,我們還會重新探索如何更好地從真實交互中進行學習。
主持人:
如果一些最大的 AI 實驗室真的開發出了非常、非常強大的 AI 系統,強大到必須彼此協調,并且還需要與政府等社會中其他關鍵機構進行協調,你對它們是否能夠順利合作有多大信心?你又有多擔心它們最終無法協調、無法達成一致?
John Schulman:
我的感覺是介于“擔心”和“有信心”之間,大概算是中等程度吧。
我會說,在領先的 AI 實驗室之間,在總體世界觀和愿景層面,還是存在相當程度的共識的。此外,最近一段時間,這些實驗室之間在安全相關的問題上,也確實已經有了一些合作。
不過,我也必須承認,實驗室之間確實存在一些“歷史恩怨”或者說人際層面的緊張關系。這些涉及到具體個人和性格的問題,可能會讓協調變得更困難一些。
但總體而言,如果未來有一天,這種跨實驗室、跨機構協調被明確地視為“這是正確的、必須要做的事情”,那我認為它是有可能運作起來的。
AGI會比預測來得慢2-3倍
主持人:
在這樣一個技術進步速度極快的時期,關于 AI 未來發展的討論非常多,尤其是關于“AI 會多快變得更強”以及“AGI 什么時候到來”的預測。很多人談論 AGI 時,指的是這樣一種狀態:幾乎所有基于計算機的知識工作,都可以由 AI 而不是人類來完成。
你如何看待這些時間表預測?你是否認為它們系統性地低估了實現 AGI 所需的時間?
John Schulman:
我過去思考這個問題的一種方式是:AGI 看起來像是一個極其龐大、復雜的工程與研究項目。而根據我個人的經驗,工程師和研究人員在預測項目完成時間方面,往往表現得非常糟糕,即便是在遠比 AGI 小得多的項目上也是如此。
我觀察到的一種非常一致的系統性偏差是:工程師幾乎總是認為事情會比實際情況更早完成。如果讓我給一個經驗法則,我可能會說:你需要在他們給出的時間預測基礎上,再乘以一個 2 到 3 倍的系數,才能更接近真實的完成時間。
圖片
從這個角度看,我認為這確實是對很多 AGI 時間線預測的一個合理批評。基于這種啟發式規則,推斷 AGI 比很多人預測的時間要更晚一些,我覺得是有道理的。
一個最接近的類比案例,可能是自動駕駛。我們已經看到,全自動駕駛、Robotaxi 等目標,花費的時間明顯比早期人們預期的要長得多。所以從這個角度來說,我認為“AGI 會比預測更慢”是一個合理的假設。
但另一方面,也確實存在一個可能打破直覺的因素:AI 會反過來加速自身的研發過程,形成正反饋循環。那些把這種“自我加速效應”納入考慮的人,往往會得出相當短的時間線預測,而我也認為這是一條有一定說服力的推理路徑。
最終的問題在于:AI 究竟能在多大程度上提升研發效率?是否會出現瓶頸,比如人類是否還能理解系統內部發生了什么?這些因素的不確定性都非常大。
所以老實說,我不會對 AGI 的時間點做出非常自信的預測。
關于 Thinking Machine和Tinker
主持人:
你和 Thinking Machines 最近發布了 Tinker。它是什么?主要是為誰設計的?
John Schulman
Tinker 是一個偏底層的微調API。它提供了一小組低層次的原語,用于訓練和采樣,但足以表達你可能想要實現的幾乎所有后訓練算法。
與此同時,它幫你屏蔽掉了很多底層復雜性:你不需要關心 GPU 或其他加速器,也不需要操心分布式系統相關的大量工程問題。
我們認為這是一個非常合適的抽象層級。一般來說,人們并不太會把“模型訓練”當成一種服務來使用;而現有的訓練服務通常又是非常高層的。所以在這個層級上做成服務,本身是比較新穎的。
一個最接近的類比,其實是你今天使用 OpenAI、Anthropic 等提供的模型采樣 API:你不需要自己搭建 GPU 服務器,只需要在 Python 或 JavaScript 里發起一次 API 調用即可。Tinker 希望在“訓練”這件事上,提供類似的體驗。
主持人:
你的目標是否是:未來一群研究者成立新的 AI 公司時,可以直接基于 Tinker 來構建?
John Schulman:
是的,我確實希望如此。我希望很多公司都可以直接構建在 Tinker 之上,而不必再從零開始搭建自己的基礎設施。你可以在 Tinker 的基礎上構建非常復雜、定制化的模型。
圖片
至于“它適合誰”,我會說:在當前階段,Tinker 更適合那些在機器學習方面已經相當成熟的用戶,也就是那些愿意直接接觸和使用底層原語的人。
當然,我們也提供了大量與 Tinker 配套的開源代碼,所以你并不一定要從頭實現所有訓練算法。但總體來說,Tinker 最適合那些愿意深入理解細節、愿意“下探到底層”的人。
隨著時間推移,我們會讓 Tinker 變得越來越易用,在其之上構建更多工具和更高層的組件。最終的目標是:即使你不是 ML 專家,也可以使用它。你只需要清楚自己要解決什么業務問題,或者你希望構建什么樣的模型,其余的事情可以交給我們提供的軟件來完成。
主持人:
未來一年左右,我們可以期待 Thinking Machines 帶來什么?有什么可以公開分享的嗎?
John Schulman:
你們會在明年看到一些我們自己訓練和發布的模型。同時,在 Tinker 方面,我們也會持續改進:增加更多模型功能,支持多模態訓練與輸入輸出,并顯著提升可支持的任務規模。


























