陶哲軒對談OpenAI高管：AI也能做數(shù)據(jù)稀疏推理，“也許很快OpenAI就能證明陶哲軒是錯(cuò)的”

作者：量子位 2024-12-09 09:35:00

陶哲軒認(rèn)為，人擅長從非常少量的數(shù)據(jù)中推斷出下一步該做什么，這是AI不擅長的領(lǐng)域。

“也許很快OpenAI將能證明陶哲軒是錯(cuò)的。”

好家伙！隔著屏幕都能聞到“硝煙”味了(bu shi~

事情是這樣的。數(shù)學(xué)大佬陶哲軒和OpenAI兩位高管最近進(jìn)行了一場線上對談，主題為“The Future of Math with o1 Reasoning”，即以推理為主的o1模型如何與數(shù)學(xué)融合，從而解鎖突破性的科學(xué)進(jìn)步。

其中陶哲軒認(rèn)為，人擅長從非常少量的數(shù)據(jù)中推斷出下一步該做什么，這是AI不擅長的領(lǐng)域。

但OpenAI高管Mark Chen針鋒相對地指出，一旦OpenAI研究項(xiàng)目成功，人們將擁有非常高效的推理器，AI也能做數(shù)據(jù)稀疏推理，也許很快OpenAI將能證明陶哲軒是錯(cuò)的。

BTW，本次活動(dòng)由Natalie Cone（創(chuàng)立并管理著OpenAI論壇）主持，除了2006年菲爾茲獎(jiǎng)得主陶哲軒，還有OpenAI研究高級副總裁Mark Chen、以及OpenAI科學(xué)政策&合作伙伴關(guān)系負(fù)責(zé)人James Donovan。

有意思的是，Ilya Sutskever（OpenAI前聯(lián)創(chuàng)&首席科學(xué)家，右下角）去年也參加了這個(gè)活動(dòng)，甚至當(dāng)時(shí)Jakub Pachocki（OpenAI現(xiàn)任首席科學(xué)家，右上角）也在。

鑒于直播內(nèi)容較長，這里直接為大家奉上省流版：

AI可以將數(shù)學(xué)工作模塊化，比如模式識(shí)別、形成猜想、驗(yàn)證等；
形式證明助手不可或缺，是進(jìn)行數(shù)學(xué)研究和使用大語言模型之間的必要中間層；
論文是否給AI署名？當(dāng)前AI的貢獻(xiàn)仍難以界定；
目前對數(shù)學(xué)結(jié)果進(jìn)行搜索的最好方式是眾包，比如Math Overflow；
AI在競賽中的表現(xiàn)，既出人意料，也低于陶哲軒預(yù)期；
……

話不多說，1小時(shí)嘉賓對談+30分鐘觀眾問答，干貨這就整理出來了！

陶哲軒對談OpenAI兩位高管

先來看幾位嘉賓這次都談了哪些內(nèi)容，大致分為以下幾個(gè)方面：

AI在數(shù)學(xué)證明和發(fā)現(xiàn)方面的潛力
將AI融入傳統(tǒng)數(shù)學(xué)研究所面臨的挑戰(zhàn)
AI在科學(xué)發(fā)現(xiàn)與創(chuàng)新中的逐漸演變的作用
AI系統(tǒng)與人類數(shù)學(xué)家之間的合作機(jī)會(huì)

以下為重點(diǎn)內(nèi)容整理。

AI可以幫助同時(shí)推進(jìn)成百上千個(gè)數(shù)學(xué)問題，思考也更深入了

James Donovan:你們目前在各自的研究領(lǐng)域中最關(guān)注哪些問題，以及為什么解決這些問題如此重要。

陶哲軒：我有很多想要解決的技術(shù)性數(shù)學(xué)問題。更貼近今天會(huì)議主題的是，我非常感興趣——我們?nèi)绾螐母旧现厮軘?shù)學(xué)，以及如何利用所有這些新工具以前所未有的方式進(jìn)行協(xié)作，以前所未有的規(guī)模開展數(shù)學(xué)研究。

我認(rèn)為這可能是一個(gè)新的發(fā)現(xiàn)時(shí)代。現(xiàn)在的數(shù)學(xué)家一次只研究一個(gè)問題，在一個(gè)問題上花費(fèi)數(shù)月時(shí)間，然后再轉(zhuǎn)向下一個(gè)問題。有了這些工具，我們可能可以同時(shí)掃描成百上千個(gè)問題，并進(jìn)行不同類型的數(shù)學(xué)研究。我對這種可能性感到非常興奮。

Mark Chen: 過去一年，我們的一個(gè)主要關(guān)注點(diǎn)是推理。不過自GPT-4以來，我們略微改變了關(guān)注點(diǎn)。

GPT-4包含了大量的原始知識(shí)，但它在很多方面也存在不足。它會(huì)被簡單的謎題難倒，并且經(jīng)常依賴于先驗(yàn)知識(shí)。如果它對一個(gè)謎題的解法有先驗(yàn)知識(shí)，它通常會(huì)犯同樣的模式匹配錯(cuò)誤。這些都表明模型在深度推理能力上的不足。

因此，我們一直專注于開發(fā)o系列模型。這些模型更像是系統(tǒng)2思考者，而不是系統(tǒng)1思考者。它們不會(huì)經(jīng)常給出直覺的快速反應(yīng)，而是在生成回應(yīng)之前花一些時(shí)間思考問題。

我想強(qiáng)調(diào)我們研究議程中的另外兩個(gè)關(guān)鍵問題：數(shù)據(jù)效率和如何為用戶創(chuàng)造直觀愉悅的體驗(yàn)。

AI可以將數(shù)學(xué)工作模塊化

James Donovan: Terry，你多次提到一種潛在的新型數(shù)學(xué)，也談到過不同的數(shù)學(xué)合作方式，能否為我們詳細(xì)解釋一下？

陶哲軒: 數(shù)學(xué)一直被認(rèn)為是一項(xiàng)非常困難的活動(dòng)，現(xiàn)在也是如此。原因有很多，其中之一是我們依賴一個(gè)人或一小部分人來完成許多不同的任務(wù)以實(shí)現(xiàn)一個(gè)復(fù)雜的目標(biāo)。

如果你想在數(shù)學(xué)上取得進(jìn)展，你必須首先提出一個(gè)好問題，然后找到解決它的工具，學(xué)習(xí)文獻(xiàn)，嘗試一些論證，進(jìn)行計(jì)算，檢查論證以確保其正確性，然后以可以解釋的方式將其寫下來，然后你必須做報(bào)告，申請資助，還有很多其他的事情要做。這些都是不同的技能。但在其他行業(yè)，我們有勞動(dòng)分工。

我認(rèn)為現(xiàn)在我們有了這些工具，原則上你可以進(jìn)行一種合作，其中一個(gè)人有遠(yuǎn)見，一個(gè)人或一個(gè)AI進(jìn)行計(jì)算，然后另一個(gè)工具撰寫論文等等。因此，你不需要一個(gè)人在所有方面都是專家。

我認(rèn)為很多人因?yàn)榭吹匠蔀橐幻麅?yōu)秀的數(shù)學(xué)家所需做的所有事情而感到氣餒，這確實(shí)令人望而生畏。但也許有些人擅長查看數(shù)據(jù)和檢查模式，然后要求AI檢查這種模式是否存在。也許他們不擅長找到正確的問題，但他們可以在一個(gè)更大的項(xiàng)目中處理一些非常狹窄的特定部分。

我認(rèn)為這些工具可以將數(shù)學(xué)工作模塊化，一些任務(wù)由AI完成，一些任務(wù)由人類完成，一些任務(wù)由形式證明助手完成，一些任務(wù)由公眾完成。在其他學(xué)科中，我們有公民科學(xué)，例如業(yè)余天文學(xué)家發(fā)現(xiàn)彗星，或業(yè)余生物學(xué)家收集蝴蝶。我們還沒有一種方法可以利用業(yè)余數(shù)學(xué)家的力量，除了一些非常小的邊緣項(xiàng)目。因此，我認(rèn)為有很多潛力，我們必須嘗試很多東西，看看哪些有效。

AI與人類具體如何分工

James Donovan: Terence，你似乎默認(rèn)假設(shè)人類仍然會(huì)劃分任務(wù)，他們?nèi)匀粚α鞒逃凶銐虻牧私鈦頉Q定誰做什么，你是否認(rèn)為因此會(huì)出現(xiàn)不同的數(shù)學(xué)家角色，不同的專業(yè)方向？

陶哲軒: 我認(rèn)為軟件工程可以作為數(shù)學(xué)發(fā)展方向的模板。過去，可能有一位英雄般的程序員包攬一切，就像數(shù)學(xué)家一樣。但現(xiàn)在，你有項(xiàng)目經(jīng)理、程序員和質(zhì)量保證團(tuán)隊(duì)等等。因此，我們可以想象在數(shù)學(xué)領(lǐng)域也這樣做。

我現(xiàn)在參與了幾個(gè)合作項(xiàng)目，它們既包含理論數(shù)學(xué)部分，也包含形式證明部分，還有人運(yùn)行各種代碼算法等等。它已經(jīng)像我預(yù)期的那樣專業(yè)化了。有些人不懂?dāng)?shù)學(xué)，但他們非常擅長形式化定理，對他們來說就像解決謎題一樣。還有一些人擅長運(yùn)行GitHub，進(jìn)行項(xiàng)目管理，確保所有后端順利運(yùn)行，也有人做數(shù)據(jù)可視化等等。我們都在協(xié)調(diào)工作。

到目前為止，主要是人類和一些比較老式的AI類型，比如改進(jìn)器，通常只是運(yùn)行Python代碼之類的東西。但我認(rèn)為這是一個(gè)范式，一旦AI足夠好，它將非常適合其中。

James Donovan: 你是否認(rèn)為這些角色總是由人類擔(dān)任，或者你是否看到了一個(gè)由o系列模型本身分解問題的未來？

Mark Chen: 我現(xiàn)在幾乎把AI當(dāng)作我的同事。有很多我不擅長的事情，我可以交給AI去做。我只是在推測，因?yàn)槲也皇菙?shù)學(xué)家，但就AI在幫助解決數(shù)學(xué)問題方面的優(yōu)勢而言，首先可能是識(shí)別模式。機(jī)器非常擅長這一點(diǎn)，尤其是有大量數(shù)據(jù)或大量需要篩選的內(nèi)容時(shí)。

我認(rèn)為從識(shí)別模式開始，你可以開始形成猜想。我認(rèn)為它們在這方面可能有獨(dú)特的優(yōu)勢——提出證明策略。我認(rèn)為今天人類仍然可能對前進(jìn)的正確步驟有更好的直覺，但在特定步驟上可能存在盲點(diǎn)。我想上次我們提到了一種生成函數(shù)方法，一個(gè)模型在一個(gè)你試圖解決的玩具問題中建議了這種方法，結(jié)果證明這在那種情況下其實(shí)還不錯(cuò)。

此外還有驗(yàn)證。模型可能能夠驗(yàn)證你確信正確的某些步驟，但你只是想再找一雙眼睛來確認(rèn)。也許還有生成反例。如果你想考慮一個(gè)定理可能是錯(cuò)誤的許多潛在方式，一個(gè)模型可能能夠比你更有效地窮舉這些可能性。

形式證明助手不可或缺

James Donovan: 你們都提到了定理證明器和形式化的作用，是否可以公平地說，你們都認(rèn)為這是進(jìn)行數(shù)學(xué)研究和使用大語言模型或同等技術(shù)之間的必要中間層？

陶哲軒: 基本上是的。證明必須是正確的。數(shù)學(xué)證明的特點(diǎn)是，如果一個(gè)證明有100個(gè)步驟，其中一個(gè)步驟是錯(cuò)誤的，那么整個(gè)證明就可能崩潰。AI當(dāng)然會(huì)犯所有這些錯(cuò)誤。有一些類型的數(shù)學(xué)可以接受一定的錯(cuò)誤率，就像Mark說的，比如尋找模式，尋找猜想。

如果有AI只有50%的正確率，但你有其他方法來檢查它，那么也沒關(guān)系。特別是如果它想輸出一個(gè)論證，那么強(qiáng)制AI以類似Lean的形式輸出是一個(gè)非常自然的協(xié)同作用。如果它編譯成功，那就太好了；如果沒有，它會(huì)返回一條錯(cuò)誤消息，并更新它的答案。

人們已經(jīng)實(shí)現(xiàn)了這一點(diǎn)，他們可以用這種迭代技術(shù)證明一些簡短的證明，但這還遠(yuǎn)沒有達(dá)到你可以問它一個(gè)高級數(shù)學(xué)問題，它就能輸出一個(gè)巨大證明的程度。

AlphaFold可以用3天的計(jì)算時(shí)間做到這一點(diǎn)，但它無法擴(kuò)展。對于某些軟性任務(wù)，可以接受正錯(cuò)誤率，你不需要形式證明助手。但對于任何真正復(fù)雜的、一個(gè)錯(cuò)誤就可能傳播的任務(wù)，它基本上是不可或缺的。

Mark Chen: 在OpenAI，我們在不同的時(shí)期或多或少地關(guān)注形式化數(shù)學(xué)。我認(rèn)為今天我們做的少了一些，主要是因?yàn)槲覀兿胩剿鞲毡榈耐评怼Ｎ覀兇_實(shí)希望你在計(jì)算機(jī)科學(xué)等領(lǐng)域?qū)W到的推理與你在數(shù)學(xué)等領(lǐng)域?qū)W到的推理非常相似。所以我當(dāng)然理解進(jìn)行形式化數(shù)學(xué)的優(yōu)勢。

數(shù)學(xué)家的“失敗”是AI寶貴的訓(xùn)練數(shù)據(jù)

James Donovan: 即使在訓(xùn)練過程中，可能有很多不正確的解決方法沒有進(jìn)入訓(xùn)練模型，因?yàn)閿?shù)學(xué)家通常不會(huì)發(fā)布和糾正錯(cuò)誤的東西，這對于更廣泛的科學(xué)領(lǐng)域也是如此。你們兩位認(rèn)為這會(huì)產(chǎn)生很大的影響嗎？我們是否應(yīng)該努力推動(dòng)人們也發(fā)布失敗的答案？

陶哲軒: 我認(rèn)為這是一個(gè)好主意。鼓勵(lì)這樣做很困難，人們不喜歡承認(rèn)自己的錯(cuò)誤。但這對AI來說可能是非常寶貴的訓(xùn)練數(shù)據(jù)。

當(dāng)我教課時(shí)，有時(shí)最有效的課是偶然發(fā)生的，我準(zhǔn)備了一個(gè)證明，然后在課堂上講，結(jié)果證明是錯(cuò)的，我必須實(shí)時(shí)修改它。課堂上看到我嘗試各種方法，比如，如果我改變這個(gè)假設(shè)，這個(gè)例子可能會(huì)有效。后來我得到了反饋，說那些是我最寶貴的課。那是因?yàn)槲曳噶隋e(cuò)誤。我認(rèn)為這些數(shù)據(jù)在很大程度上是你們無法獲得的。

事實(shí)上，許多領(lǐng)域?qū)＜业膶I(yè)知識(shí)是建立在幾十年錯(cuò)誤的基礎(chǔ)上的，這些錯(cuò)誤教會(huì)了他們什么不該做，即負(fù)空間。隨著我們轉(zhuǎn)向更正式的環(huán)境，我認(rèn)為這方面開始有所改變。

現(xiàn)在，我們在證明完成后對其進(jìn)行形式化。最終，我們將達(dá)到在進(jìn)行過程中進(jìn)行形式化的程度。我們可能在思考數(shù)學(xué)問題時(shí)與AI對話，并嘗試在進(jìn)行過程中將步驟形式化。然后，也許它行不通，你必須回溯等等。這將自然地創(chuàng)建一些我們現(xiàn)在沒有的數(shù)據(jù)。

AI可能為數(shù)學(xué)帶來新的靈感

James Donovan: 許多數(shù)學(xué)家都談到定理的美妙之處，以及所有元素都契合在一起并能優(yōu)雅地表達(dá)出來的那種頓悟時(shí)刻。我們是否有可能在使用此類工具時(shí)失去這種認(rèn)知過程？

陶哲軒: 當(dāng)計(jì)算器普及時(shí)，也出現(xiàn)了類似的情況。人們總是說，既然你不用手工計(jì)算，你就會(huì)失去你的數(shù)感。在某種程度上，這是真的。我可以想象，100年前的數(shù)學(xué)家在從直接計(jì)算中獲得數(shù)感方面要好得多。但是，你也可以通過使用計(jì)算器獲得不同類型的數(shù)感。

所以我認(rèn)為會(huì)出現(xiàn)不同類型的審美標(biāo)準(zhǔn)。我認(rèn)為會(huì)有一些計(jì)算機(jī)生成的證明，它們以不同的方式同樣非常優(yōu)雅和驚人。但我認(rèn)為，至少在未來幾十年里，人工智能范式不會(huì)完全取代人類。

我認(rèn)為數(shù)學(xué)家在某種程度上比較慢，我們?nèi)匀皇褂梅酃P黑板。所以會(huì)有人仍然會(huì)精心設(shè)計(jì)非常精彩的證明。未來會(huì)有一類數(shù)學(xué)家，他們會(huì)將AI生成的數(shù)學(xué)轉(zhuǎn)化為更人性化的東西。我認(rèn)為這在未來會(huì)很常見。

AI已經(jīng)在實(shí)際教學(xué)中成功運(yùn)用，最重要的是學(xué)會(huì)結(jié)合

James Donovan: 在我的生物學(xué)領(lǐng)域，人們傾向于認(rèn)為這些模型會(huì)在原本看似無關(guān)的事物之間找到模式，你會(huì)發(fā)現(xiàn)所有事物之間潛在的統(tǒng)一性。

這種想法基于這樣一個(gè)觀點(diǎn)：有很多唾手可得的成果，只是我們還沒有注意到。而我認(rèn)為對于數(shù)學(xué)和物理學(xué)的部分領(lǐng)域來說，改進(jìn)幾乎就在于活動(dòng)的開展方式，我們感覺這可能存在根本上的不同。所以你們是否認(rèn)為這將對我們?nèi)绾谓逃藗儗W(xué)習(xí)數(shù)學(xué)，特別是如何支持那些將要進(jìn)行前沿?cái)?shù)學(xué)研究的人產(chǎn)生影響？

陶哲軒: 學(xué)生們已經(jīng)在使用大語言模型，最明顯的是幫助他們完成作業(yè)，但也可以從不同的角度看待一個(gè)主題。

教育工作者也在想辦法將大語言模型融入我們的教學(xué)中。一個(gè)越來越普遍的做法是，提出一些數(shù)學(xué)問題或其他領(lǐng)域的問題，給出GPT的答案，然后說這個(gè)答案是錯(cuò)的，請?jiān)u論它。或者與AI進(jìn)行對話，并實(shí)際教它如何修改答案。

實(shí)際上有一個(gè)班級，他們做了一個(gè)小組項(xiàng)目，老師發(fā)了一份練習(xí)期末考試卷，然后說，請嘗試用提示工程和數(shù)據(jù)分析來訓(xùn)練AI，弄清楚如何最有效地教會(huì)AI解決期末考試題，他們做到了。他們讓一組做提示，一組做基準(zhǔn)測試等等。但這同時(shí)也迫使他們，例如，為了生成所有數(shù)據(jù)，為了生成模擬考試，他們必須真正理解課堂材料才能做到這一點(diǎn)。

所以這實(shí)際上是一個(gè)借口，讓他們深入研究，學(xué)習(xí)課堂材料以及如何使用這些AI工具。所以我們會(huì)找到創(chuàng)新的方法來結(jié)合這兩種方法。

Mark Chen: 你認(rèn)為過度依賴AI工具會(huì)導(dǎo)致數(shù)學(xué)技能下降或洞察力喪失嗎？

陶哲軒: 我認(rèn)為這將是一種轉(zhuǎn)變。我們將更少地使用某些技能，但我們將更多地培養(yǎng)其他技能。

國際象棋就是一個(gè)很好的例子。國際象棋現(xiàn)在基本上是一個(gè)已解決的問題，但人們?nèi)匀唤?jīng)常下棋。但他們練習(xí)國際象棋的方式現(xiàn)在已經(jīng)大不相同了。他們嘗試不同的走法，然后問國際象棋引擎，這是個(gè)好棋嗎？例如，國際象棋理論正在蓬勃發(fā)展，許多關(guān)于棋盤哪個(gè)部分值得控制的百年格言正在被重新評估，因?yàn)槿祟悤?huì)向國際象棋引擎提出各種問題。這是一種獲得國際象棋直覺的不同方式，而不是傳統(tǒng)的只是下很多棋和閱讀很多教科書的方法。

所以，這將是一個(gè)轉(zhuǎn)變，一種權(quán)衡，但我認(rèn)為最終是積極的。

Mark Chen: 當(dāng)人們問我應(yīng)該如何適應(yīng)新興的人工智能時(shí)，我仍然認(rèn)為，基本上沒有必要突然放棄學(xué)習(xí)任何特定學(xué)科。我認(rèn)為人們應(yīng)該擁抱人工智能，看看它如何能讓他們更有效率。

在數(shù)學(xué)領(lǐng)域，它可以幫助你進(jìn)行大量的繁瑣計(jì)算。如果這是一些你已經(jīng)了如指掌的例行公事，你可以讓模型進(jìn)行操作。我仍然認(rèn)為對一個(gè)學(xué)科有非常深入的理解是很重要的。即使在今天的機(jī)器學(xué)習(xí)領(lǐng)域，那些正在影響最大變化的人也是那些非常了解數(shù)學(xué)或系統(tǒng)的人。

我認(rèn)為人類有一種與數(shù)學(xué)核心相聯(lián)系的特殊審美。而且，由于其他人也在評判這種審美，模型在定義問題和擁有品味方面可能更難模仿。當(dāng)然，數(shù)學(xué)本身就是一項(xiàng)很好的技能。我認(rèn)為它具有很強(qiáng)的可遷移性，它教會(huì)你穩(wěn)健的推理，我認(rèn)為數(shù)學(xué)家通常適應(yīng)性很強(qiáng)。

所以，絕對沒有理由不大量投資于數(shù)學(xué)。

用AI輔助證明只是加速了已經(jīng)發(fā)生的趨勢

James Donovan: 如果模型在做非常復(fù)雜的數(shù)學(xué)，我們可能會(huì)達(dá)到一個(gè)地步，即它超出了人類在我們的環(huán)境中驗(yàn)證或理解的能力。你們兩位是否認(rèn)為這在不久的將來是可能的？如果是，如何應(yīng)對？

陶哲軒: 事實(shí)上，現(xiàn)在就已經(jīng)出現(xiàn)數(shù)學(xué)家有時(shí)會(huì)產(chǎn)生沒有人能理解的巨大證明的情況。人們已經(jīng)在使用大量的計(jì)算機(jī)輔助。

有一些證明需要TB級別的證明證書，因?yàn)槠渲邪罅康腟AT求解器計(jì)算或一些大型數(shù)值建模。還有一些證明是建立在數(shù)百篇文獻(xiàn)的基礎(chǔ)上的，我們將這些先前的結(jié)果視為黑匣子，沒有人能理解所有內(nèi)容。所以我們在某種程度上已經(jīng)習(xí)慣了這一點(diǎn)。

我們可以將一個(gè)復(fù)雜的證明劃分成多個(gè)部分，你只需要理解其中一部分，然后相信計(jì)算機(jī)或人類能夠理解其他部分，并且它們都能正常工作。這種情況會(huì)繼續(xù)發(fā)生，所以我們將會(huì)有大型復(fù)雜的論證，其中一部分將由AI生成，希望也能進(jìn)行形式化驗(yàn)證。

我認(rèn)為這是一種趨勢，它只是加速了已經(jīng)發(fā)生的趨勢，我不認(rèn)為這是一個(gè)真正的相變。

Mark Chen: 我擔(dān)心的很多問題是類似的，比如你可能會(huì)有一些錯(cuò)誤傳播，或者其他人建立在某個(gè)結(jié)果之上，而你只是建立在一些錯(cuò)誤的數(shù)學(xué)之上。特別是如果計(jì)算機(jī)生成的新見解的數(shù)量增加的話。

我們在OpenAI非常關(guān)注的一個(gè)問題是更普遍的可擴(kuò)展監(jiān)督問題。這個(gè)想法是，當(dāng)一個(gè)模型花了大量時(shí)間思考，并得出了某種根本性的見解，你如何知道模型沒有犯錯(cuò)？你如何知道它是正確的？你如何相信它？從根本上說，這確實(shí)是一個(gè)非常現(xiàn)實(shí)的問題。

它在幾年前可能還比較理論化，但我認(rèn)為今天的模型確實(shí)有能力解決非常困難的問題。那么，我們?nèi)绾螌彶椴⑾嘈艈栴}得到了正確的答案呢？

James Donovan: 數(shù)學(xué)是我們有機(jī)會(huì)解決這個(gè)問題的唯一領(lǐng)域，因?yàn)槲覀冇行问交?yàn)證，這也可以自動(dòng)完成。

陶哲軒: 是的，你希望這方面的進(jìn)展最終能促進(jìn)所有其他科學(xué)的進(jìn)步。如果我們能找到一種方法，從這些數(shù)學(xué)證明推導(dǎo)到物理、化學(xué)等等。

數(shù)學(xué)生態(tài)會(huì)更加適應(yīng)AI，但短期內(nèi)變化不明顯

James Donovan: 數(shù)學(xué)的實(shí)際生態(tài)系統(tǒng)會(huì)發(fā)生變化以適應(yīng)大語言模型嗎？如果是，會(huì)如何變化？

陶哲軒: 它會(huì)的。很難準(zhǔn)確預(yù)測它將如何變化。

我認(rèn)為會(huì)出現(xiàn)一些現(xiàn)在不流行的新型數(shù)學(xué)，因?yàn)樗鼈冊诩夹g(shù)上是不可行的。特別是實(shí)驗(yàn)數(shù)學(xué)是一個(gè)非常小的部分，我認(rèn)為像95%是理論性的，這在所有科學(xué)家中是不尋常的。

通常，實(shí)驗(yàn)和理論之間是平衡的。但是實(shí)驗(yàn)很難，你必須非常擅長編程。或者你的任務(wù)必須足夠簡單，你可以用一個(gè)普通的軟件來自動(dòng)化它，這是數(shù)學(xué)家可以編程的范圍內(nèi)的。但是有了AI，你可以做更復(fù)雜的探索。

傳統(tǒng)上，你可能會(huì)研究一個(gè)微分方程，但你可能會(huì)問AI，這是對這個(gè)微分方程的分析，現(xiàn)在對列表中的500個(gè)方程重復(fù)相同的分析。這是你現(xiàn)在無法用傳統(tǒng)工具自動(dòng)化的事情，因?yàn)槟阈枰浖栴}有一些理解。

所以我認(rèn)為數(shù)學(xué)的類型會(huì)改變。現(xiàn)在已經(jīng)有一種趨勢是變得更加協(xié)作，這將隨著AI的發(fā)展而加速。但我認(rèn)為至少在未來一二十年里，我們?nèi)匀粫?huì)寫論文、審稿、教學(xué)等等。我認(rèn)為這不會(huì)是一個(gè)重大的變化，我們會(huì)越來越多地在我們的工作中使用人工智能，就像我們已經(jīng)在其他方面越來越多地使用計(jì)算機(jī)輔助一樣。

AI的貢獻(xiàn)仍難以界定

James Donovan: 能否設(shè)想一個(gè)我們將突破直接歸功于大語言模型本身的世界？那意味著什么？

陶哲軒: 這將是一個(gè)我們必須面對的大問題。我認(rèn)為我們目前的論文作者模式，比如在科學(xué)領(lǐng)域，我們可能有一位主要作者，然后是一大堆次要作者。數(shù)學(xué)家還沒有這樣做，我們?nèi)匀话葱帐献帜疙樞蚺帕校诤艽蟪潭壬希覀兒雎粤苏l做了什么的問題，我們只是說，我們都做出了同等的貢獻(xiàn)。

我認(rèn)為我們將不得不更精確地界定貢獻(xiàn)。現(xiàn)在已經(jīng)有這樣一種趨勢，至少在科學(xué)領(lǐng)域，當(dāng)你寫一篇論文時(shí)，會(huì)有一部分是關(guān)于作者貢獻(xiàn)的，誰做了什么。如果是GitHub，你可以查看GitHub提交，這也會(huì)給你一些數(shù)據(jù)。

所以，一旦你知道一半的提交是由AI完成的，等等，就會(huì)出現(xiàn)一個(gè)問題：你是否真的將AI提升為共同作者，或者你是否至少在致謝中提到它？我們還沒有這方面的規(guī)范。我們需要解決這個(gè)問題，會(huì)有一些測試案例和一些爭議，最終會(huì)制定出對每個(gè)人都有效的方案。但我沒有這個(gè)問題的答案。

Mark Chen: 我認(rèn)為還有一個(gè)相關(guān)的問題，雖然不完全相同，那就是訪問權(quán)限的問題。如果模型繼續(xù)貢獻(xiàn)大量的證明塊，那么那些擁有更多計(jì)算資源的人，他們在數(shù)學(xué)研究方面是否處于更有利的地位？這絕對是需要思考的問題。我不太清楚該如何沿著這條思路繼續(xù)思考，但它確實(shí)是一個(gè)難題。

AI打破了技術(shù)壁壘，以后不懂?dāng)?shù)學(xué)也可以進(jìn)行研究

James Donovan: 對本身不是數(shù)學(xué)家的人來說，如果我們能夠真正加速基礎(chǔ)數(shù)學(xué)的發(fā)展，你預(yù)計(jì)會(huì)看到世界上發(fā)生什么？這會(huì)為社會(huì)其他部分帶來什么？

陶哲軒: 我認(rèn)為這可以增加公民對數(shù)學(xué)的參與。可以想象，例如人們爭論地球是圓的還是平的，令人驚訝的是，這個(gè)問題仍然存在。但是在AI中，你可以實(shí)際開始構(gòu)建模型，你可以假設(shè)地球是平的，天空會(huì)是什么樣子等等。

現(xiàn)在，在你弄清楚事物會(huì)發(fā)生多大的變化之前，你需要相當(dāng)多的數(shù)學(xué)知識(shí)。但你可以想象，有了這些模型工具，它實(shí)際上可以為你創(chuàng)建一個(gè)可視化工具，你可以看到，這就是這個(gè)宇宙理論的樣子。

所以我認(rèn)為這可以將數(shù)學(xué)與許多目前感到被排除在外的人聯(lián)系起來，因?yàn)樗麄冎皇侨狈M(jìn)行這門學(xué)科任何研究所需的純粹技術(shù)技能。

James Donovan: 你是否認(rèn)為我們需要更好地進(jìn)行這種數(shù)學(xué)研究，才能在其他應(yīng)用科學(xué)領(lǐng)域使用AI？例如加速工程、物理或……

陶哲軒: 很多科學(xué)已經(jīng)以數(shù)學(xué)為基礎(chǔ)，如果你不懂?dāng)?shù)學(xué)，你無法在沒有數(shù)學(xué)的情況下進(jìn)行準(zhǔn)確建模。當(dāng)然，在后端，如果你想訓(xùn)練AI，你需要大量的數(shù)學(xué)。

我認(rèn)為我們可能會(huì)進(jìn)入一個(gè)這樣的世界：你可以成為一名生物學(xué)家或其他什么，你可以要求AI進(jìn)行統(tǒng)計(jì)研究，你不需要知道參數(shù)的確切細(xì)節(jié)。如果AI足夠可靠，它實(shí)際上可以為你完成所有數(shù)學(xué)工作。所以它可以使數(shù)學(xué)成為科學(xué)的可選條件，而現(xiàn)在不是這樣。所以它可以雙向運(yùn)作。

數(shù)學(xué)家需靈活應(yīng)對AI，知道如何玩AI很重要

James Donovan: 你對年輕數(shù)學(xué)家有什么建議？他們應(yīng)該關(guān)注哪些領(lǐng)域，應(yīng)該解決哪些類型的問題？

陶哲軒: 我的建議是他們必須靈活。我認(rèn)為數(shù)學(xué)正變得越來越技術(shù)化，越來越協(xié)作。也許50年前，你可以專攻數(shù)學(xué)的一個(gè)子領(lǐng)域，幾乎不與其他數(shù)學(xué)家互動(dòng)，你就可以以此為生。現(xiàn)在這基本上是不可行的。我認(rèn)為數(shù)學(xué)是一個(gè)更大的生態(tài)系統(tǒng)的一部分，這是一件好事。

有了AI，它可以開啟比以前認(rèn)為可能的更廣泛的合作。你可以與你實(shí)際上沒有專業(yè)知識(shí)的領(lǐng)域的科學(xué)家合作，但AI可以幫助你快速入門，并在科學(xué)家之間充當(dāng)通用翻譯器。

所以，要保持開放的心態(tài)，也要認(rèn)識(shí)到這些工具也有局限性。你不能盲目地使用這些工具，你仍然需要培養(yǎng)自己的人類技能，這樣你才能監(jiān)督AI。它不是魔杖。

James Donovan：根據(jù)你所看到的趨勢，你會(huì)鼓勵(lì)學(xué)生現(xiàn)在學(xué)習(xí)哪些技能，以便將來能夠充分利用這些模型？

Mark Chen: 老實(shí)說，我們?nèi)匀恍枰夹g(shù)領(lǐng)域的專家，他們能夠與這些工具很好地協(xié)同工作。我喜歡保持靈活的總體建議。我認(rèn)為對各個(gè)領(lǐng)域的人來說，至少了解神經(jīng)網(wǎng)絡(luò)如何工作、如何訓(xùn)練、它們的動(dòng)態(tài)是什么樣的，以及它們的局限性是什么，這將非常有幫助。

我認(rèn)為，人們玩得越多，越了解如何加速它們，他們就越有效率。我認(rèn)為每個(gè)人的效率都會(huì)有一個(gè)乘數(shù)效應(yīng)。也許幾年后，這個(gè)乘數(shù)有望顯著大于1，但我認(rèn)為有效利用AI工具的人總體上會(huì)比那些對它視而不見的人更有效率。

AI在競賽中的表現(xiàn)既出人意料，也低于預(yù)期

James Donovan: 聽說模型最近在國際數(shù)學(xué)奧林匹克競賽有白銀級別的表現(xiàn)，你對進(jìn)展速度感到驚訝嗎？

陶哲軒: 它既超出了我的預(yù)期，也低于我的預(yù)期。

在任何可以生成類似任務(wù)數(shù)據(jù)的任務(wù)中，例如國際數(shù)學(xué)奧林匹克競賽，DeepMind生成了大量的模擬證明，實(shí)際上是大量的模擬失敗證明，這實(shí)際上是他們秘密的一部分。所以很多我原以為幾年內(nèi)都無法完成的任務(wù)現(xiàn)在都完成了。

另一方面，每當(dāng)你超越有數(shù)據(jù)存在的范圍，進(jìn)入一個(gè)研究級問題，世界上只有10個(gè)人真正認(rèn)真思考過這個(gè)問題，AI工具仍然沒有那么有用。我有一個(gè)我現(xiàn)在仍在進(jìn)行的項(xiàng)目，我們正在證明2000萬個(gè)小型數(shù)學(xué)問題，而不是證明一個(gè)大問題。我認(rèn)為這是一項(xiàng)AI非常適合的任務(wù)，因?yàn)槿绻鼈兡軌蛱幚硪欢ū壤?/p>

但事實(shí)證明，在這個(gè)項(xiàng)目研究的所有問題中，也許99%可以用更傳統(tǒng)的蠻力計(jì)算方法處理，而1%需要人工干預(yù)，這相當(dāng)困難。已經(jīng)嘗試過的AI可以恢復(fù)99%的相當(dāng)容易的問題，但它們并沒有對真正具有挑戰(zhàn)性的核心問題做出貢獻(xiàn)。這可能只是目前技術(shù)水平的體現(xiàn)。

所以，我認(rèn)為在看到它們自主解決這些研究級問題之前，還需要有更多的突破。

Mark Chen: 我想講一個(gè)我腦海中的軼事，它既說明了這一點(diǎn)的令人印象深刻，又說明了仍有進(jìn)步空間。

我們今年也用我們的o系列模型參加了國際信息學(xué)奧林匹克競賽。一方面，它們確實(shí)需要每個(gè)問題的大量樣本。我們在博客文章中宣布，你需要每個(gè)問題10000個(gè)樣本來從模型中提取金牌水平的表現(xiàn)。這感覺很多，但同時(shí)，它能夠做到這一點(diǎn)就已經(jīng)讓我感到難以置信了。其中一些是非常反模式的問題。

所以它就在那里。我真的很興奮能真正發(fā)揮出這種能力。

AI不擅長在稀缺數(shù)據(jù)中推理，OpenAI新研究有望解決

James Donovan: 你需要看到哪些類型的推理，才能認(rèn)為你可以使用AI解鎖一些目前它們難以解決的更具挑戰(zhàn)性的問題，即較小的子集問題？

陶哲軒：我絕對認(rèn)為AI解決問題是一種非常互補(bǔ)的方式，它是一種非常數(shù)據(jù)驅(qū)動(dòng)的問題解決方式。

正如你所說，對于某些任務(wù)，它實(shí)際上比人類做得更好。我們正在學(xué)習(xí)的是，我們對某些任務(wù)難度的認(rèn)知必須重新校準(zhǔn)，因?yàn)槲覀儧]有嘗試使用數(shù)據(jù)驅(qū)動(dòng)的方法來解決某些類型的問題。但有一些問題是不可判定的。任何數(shù)量的數(shù)據(jù)都無法實(shí)際解決某些問題，我們可以實(shí)際證明它們無法被證明。

我的意思是這不是AI的強(qiáng)項(xiàng)，但如果你想讓AI真正像人類那樣在解決數(shù)學(xué)問題上競爭，它們需要在數(shù)據(jù)稀缺的環(huán)境中進(jìn)行推理，你需要研究一個(gè)新的數(shù)學(xué)對象，你只知道關(guān)于它的五六個(gè)事實(shí)，一些少量的例子。也許它與其他一些已知的數(shù)學(xué)對象有非常模糊的類比，你必須從非常少量的數(shù)據(jù)中推斷出下一步該做什么。

這是AI不擅長的領(lǐng)域，也許它完全是錯(cuò)誤的，我認(rèn)為試圖強(qiáng)迫AI這樣做就像是用錯(cuò)誤的工具來完成一項(xiàng)任務(wù)。這是人類真正擅長并且非常有效的事情，所有那些蠻力檢查、案例分析和綜合，以及尋找它們不擅長的模式。

所以認(rèn)為智力是一個(gè)一維的尺度，并且哪一個(gè)更好，人工智能還是人類，這可能是一個(gè)錯(cuò)誤。我認(rèn)為你應(yīng)該把它們視為互補(bǔ)的。

Mark Chen: 如果我們的研究項(xiàng)目成功，我們將擁有非常高效的數(shù)據(jù)稀疏推理器。所以，希望我們能證明你是錯(cuò)的，Terence。

構(gòu)建AI技術(shù)交流平臺(tái)很重要

James Donovan: 如果你倆明天被任命為大學(xué)校長，并獲得了一些有意義的預(yù)算，你會(huì)建立一個(gè)什么樣的部門？你會(huì)投資哪些基礎(chǔ)設(shè)施來真正利用這些新技術(shù)？

陶哲軒: 這是一個(gè)好問題。我可以想象擁有一些集中的計(jì)算機(jī)資源來運(yùn)行你可以自己調(diào)整的本地模型等等。這有點(diǎn)難，技術(shù)變化如此之快，以至于現(xiàn)在對任何特定硬件或軟件的投資可能在幾年后就不那么重要了。

所以你可以將來自不同學(xué)科的很多人聚集在一起，共同找出使用這些技術(shù)的方法的地方。我的意思是，我們已經(jīng)開發(fā)了很多這樣的技術(shù)中心類型的東西。但我認(rèn)為它必須非常自由，因?yàn)榧夹g(shù)是如此不可預(yù)測。我們需要不同的部門互相交流，看看協(xié)同作用在哪里。

Mark Chen: 我只會(huì)給出一個(gè)非常簡短的答案。我認(rèn)為OpenAI正在做正確的事情。建造一臺(tái)非常大的計(jì)算機(jī)，讓我們弄清楚如何將這臺(tái)計(jì)算機(jī)變成智能。

觀眾問答環(huán)節(jié)

目前對數(shù)學(xué)結(jié)果進(jìn)行搜索的最好方式是眾包

1號(hào)觀眾Eduardo：我是一名訓(xùn)練有素的數(shù)學(xué)家，現(xiàn)在也從事AI方面的工作，大約50年了。

35或40年前，我正式通過我的同事要求美國數(shù)學(xué)學(xué)會(huì)提出一項(xiàng)大規(guī)模的數(shù)學(xué)項(xiàng)目，類似于物理學(xué)家當(dāng)時(shí)的超級對撞機(jī)。我說，讓我們計(jì)算機(jī)化，讓我們用某種統(tǒng)一的語言建立一個(gè)基本數(shù)學(xué)定理的數(shù)據(jù)庫，這樣人們就可以很容易地引用和找到這些東西。但我被拒之門外，他們覺得我瘋了，是個(gè)怪人。

但現(xiàn)在我們顯然處于一個(gè)可以開始這樣做的局面。所以我的問題是，你認(rèn)為在三五年后，是否有能力通過某種學(xué)習(xí)，可能是某種基于注意力的類型，通過嵌入的內(nèi)容、相互關(guān)聯(lián)的內(nèi)容來識(shí)別模式，從而真正做到這一點(diǎn)？

你知道我在說什么，對數(shù)學(xué)進(jìn)行語義搜索將會(huì)非常棒。

陶哲軒: OpenAI實(shí)際上已經(jīng)做了一些這方面的工作。我做了一些實(shí)驗(yàn)，比如，如果你有一個(gè)定理，你認(rèn)為你知道它的名字，或者你認(rèn)為你大概知道它是什么，但你不記得它的名字，所以你不能直接在搜索引擎中輸入。你可以用非正式的術(shù)語向大語言模型描述它，它通常可以告訴你。

對于隱藏在arXiv上20篇論文中的更晦澀的結(jié)果，我們目前還沒有這種能力。這是一個(gè)很好的問題，我向很多我交談過的機(jī)器學(xué)習(xí)領(lǐng)域的人提出了這個(gè)問題：有沒有什么方法可以提取出一個(gè)數(shù)學(xué)結(jié)果的本質(zhì)并對其進(jìn)行搜索？目前最好的方法是眾包，你去一個(gè)問答網(wǎng)站，比如Math Overflow。

在重要問題上，目前更鼓勵(lì)搜索而非AI模型

2號(hào)觀眾Lizzie：我目前是斯坦福大學(xué)的一名醫(yī)學(xué)生，研究神經(jīng)科學(xué)，如果你不介意的話，可以稱之為真正的神經(jīng)網(wǎng)絡(luò)。我正在嘗試使用我仍在學(xué)習(xí)的大語言模型或AI模型來進(jìn)行AI藥物發(fā)現(xiàn)。

我遇到了一個(gè)技術(shù)問題，我住在舊金山，我想在這個(gè)周末去舊金山歌劇院。我在ChatGPT中輸入并問它，卡門什么時(shí)候上映，因?yàn)槟鞘强ㄩT的演出時(shí)間表。然后ChatGPT告訴我星期六可以去。所以我去了那里，沒有演出，只有星期天下午2點(diǎn)。

那么，有了這個(gè)技術(shù)難題，我該如何在進(jìn)行AI藥物發(fā)現(xiàn)時(shí)更謹(jǐn)慎地信任或使用這個(gè)系統(tǒng)呢？我不知道答案，我無法檢查，而且它會(huì)有更長遠(yuǎn)的影響。

Mark Chen: 實(shí)際上，我鼓勵(lì)你今天嘗試將模型與搜索一起使用。我認(rèn)為現(xiàn)在有一些方法可以讓模型瀏覽并將模型的響應(yīng)基于真實(shí)的輸出源。所以，如果你今天使用搜索，它會(huì)引用特定的網(wǎng)站或特定的來源，以反映事實(shí)。

我認(rèn)為未來版本的搜索將會(huì)非常精確，它們會(huì)告訴你這些網(wǎng)站中可以找到答案和參考的位置。但我今天會(huì)鼓勵(lì)你嘗試使用搜索進(jìn)行相同的查詢。

數(shù)學(xué)與其他學(xué)科一直是雙向的

3號(hào)觀眾Danny：我在加州大學(xué)伯克利分校獲得了數(shù)學(xué)學(xué)士學(xué)位，然后直到大約6個(gè)月前，我還是威斯康星大學(xué)人工智能科學(xué)專業(yè)的博士生，現(xiàn)在我在法學(xué)院學(xué)習(xí)人工智能和法律相關(guān)的主題。

我做過很多不同的事情，我想問Tao教授的問題是，我知道歷史上數(shù)學(xué)理論是先發(fā)展的，然后其他領(lǐng)域的研究人員，尤其是物理學(xué)或化學(xué)或其他領(lǐng)域的研究人員會(huì)將該理論應(yīng)用到他們的問題中。

現(xiàn)在，隨著人工智能成為如此重要的事情，你是否看到有任何反饋？我知道在物理學(xué)中，人們大量使用機(jī)器學(xué)習(xí)來模擬偏微分方程的計(jì)算解，而這些是無法用傳統(tǒng)方法解決的。你是否看到數(shù)學(xué)家從其他領(lǐng)域獲得了任何新的理論見解？特別是考慮到我們現(xiàn)在可以生成更多的數(shù)據(jù)。

陶哲軒: 數(shù)學(xué)一直是雙向的。我的意思是有一些物理學(xué)家的發(fā)現(xiàn)，數(shù)學(xué)家無法解釋，然后他們不得不發(fā)展數(shù)學(xué)理論。狄拉克發(fā)明了一種叫做狄拉克δ函數(shù)的東西，根據(jù)正統(tǒng)數(shù)學(xué)，它不是一個(gè)函數(shù)。我們不得不擴(kuò)展我們對函數(shù)的定義。它一直是雙向的。

OpenAI未來可能整合全部工作流

4號(hào)觀眾Ashish: 我在微軟擔(dān)任產(chǎn)品經(jīng)理，我為AI構(gòu)建無代碼平臺(tái)。我的問題是，我想描述一下我在工作中用來寫東西、做事情的工作流程。我使用OpenAI進(jìn)行深度思考，思考我正在研究的任何主題，然后我使用Perplexity進(jìn)行研究，最后，這些是我瀏覽器上的不同標(biāo)簽頁，我最終使用帶有Canvas的Perplexity將所有內(nèi)容整合在一起。

所以，這是一個(gè)人工策劃的工作流程。我想知道將來是否有更簡單的方法來做到這一點(diǎn)。

Mark Chen: 這是一個(gè)非常好的問題。我在之前的回答中稍微提到過這一點(diǎn)，現(xiàn)在有很多模型，今天之所以會(huì)讓人感到困惑，部分原因是OpenAI一直被當(dāng)作是研究預(yù)覽版。我們只是想向世界展示更高級的推理能力。我們會(huì)讓它變得不那么混亂。我想你想把所有東西都整合在一起，讓它變得非常無縫。

再次重申，很難承諾具體日期，但我認(rèn)為你的工作流程會(huì)變得簡單很多。