国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清華學霸、OpenAI姚順雨:AI下半場開戰,評估將比訓練重要

人工智能 新聞
想象一下,未來的 AI 不僅能聽懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

最近新出的《黑鏡》第七季大家都看了嗎?

其中第三集聚焦一個叫 ReDream 的前沿技術,允許現代演員通過 AI 和虛擬現實與經典黑白電影中的虛擬角色互動,快速重拍經典影片。隨著故事發展,主角發現 AI 角色似乎擁有自我意識。

image.png

想象一下,未來的 AI 不僅能聽懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

姚順雨畢業于清華姚班,普林斯頓大學計算機科學博士,2024 年 8 月加入 OpenAI。他以語言智能體領域的開創性工作聞名:ToT 使 AI 通過多路徑推理解決復雜問題,ReAct 讓 AI 在推理中動態行動,CoALA 則為 AI 智能體提供了模塊化的認知架構。

image.png

早在 GPT-2 剛興起時,他就預見了語言模型的潛力,率先研究如何將其轉化為「會思考的 Agent」,展現了驚人的學術前瞻性。如今,他的成果正推動 AI 在編程、教育、自動化等領域大放異彩。

近日,姚順雨發布了一篇新博客,探討 AI 發展的「下半場」。AI 的未來會是什么樣?讓我們跟隨他的腳步,一起揭開人工智能的下一幕!

image.png

博客地址:https://ysymyth.github.io/The-Second-Half/

上半場

簡而言之:我們正處在 AI 的中場休息時間。

幾十年來,AI 主要致力于開發新的訓練方法和模型,取得了顯著成就,如在國際象棋和圍棋中擊敗世界冠軍,以及在多個考試中超越人類。這些成就源于基礎性創新,如搜索、深度強化學習(Deep RL)和推理。

現在的不同之處在于:深度強化學習終于開始泛化,找到了一種有效的方法來解決多種 RL 任務。曾經,研究人員不相信單一方法能夠應對軟件工程、創意寫作、復雜數學等多個領域的挑戰,但如今這種情況已經改變。

接下來,AI 的重點將從解決問題轉向定義問題。在這個新時代,評估的重要性將超過訓練。我們需要重新思考如何訓練 AI 以及如何衡量進展,這可能需要更接近產品經理的思維方式。

理解上半場的關鍵在于其贏家。影響力最大的 AI 論文如 Transformer、AlexNet 和 GPT-3 等,都是提出基礎性突破的訓練方法,而非基準測試。盡管 ImageNet 是一個重要的基準測試,但其引用量仍遠低于 AlexNet。這表明,方法與基準測試之間的關系在其他領域更為顯著。

image.png

AI 發展的上半場主要聚焦于模型和方法的創新,而非評估標準的建立。這是因為開發新的算法和模型架構(如反向傳播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,遠比將已有人類任務轉化為基準測試更具挑戰性和吸引力。

更重要的是,這些方法往往具有普適性和廣泛應用價值。典型如 Transformer 架構,從最初的機器翻譯擴展到計算機視覺、自然語言處理和強化學習等多個領域,產生了深遠影響。這種專注于方法創新的策略在過去幾十年證明是有效的,推動了 AI 在各個領域的突破性進展。而現在,隨著這些創新的累積達到臨界點,AI 的發展重心正在發生根本性轉變。

配方

這個配方是什么?其中的成分,不出所料,包括大規模語言預訓練、規模(數據和計算能力),以及推理和行動的理念。這些聽起來可能像是每天都能聽到的流行詞,但將它們稱為配方是有原因的。

通過強化學習(RL)的視角可以理解這一點,強化學習通常被認為是人工智能的「終極形態」—— 理論上強化學習保證能贏得游戲,而從經驗上看,很難想象沒有強化學習的超人類系統(例如 AlphaGo)。

在強化學習中,有三個關鍵組成部分:算法、環境和先驗知識。長期以來,強化學習研究人員主要關注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等)—— 智能體學習的智力核心 —— 同時將環境和先驗知識視為固定或最小化的因素。例如,Sutton 和 Barto 的經典教科書幾乎全部講述算法,幾乎不涉及環境或先驗知識。

image.png

然而,在深度強化學習時代,環境的重要性在實踐中變得愈發明顯:算法的性能通常高度依賴于其開發和測試的環境。如果忽視環境因素,研究者可能會構建出一個只在玩具場景中表現出色的「最優」算法。那么,為什么不先確定真正想要解決的環境,然后再尋找最適合該環境的算法呢?

這正是 OpenAI 最初的計劃。該公司構建了 gym,一個用于各種游戲的標準強化學習環境,隨后又推出了 World of Bits 和 Universe 項目,試圖將互聯網或計算機轉變為游戲環境。一旦將所有數字世界轉化為環境,并用智能強化學習算法解決它們,就能擁有數字通用人工智能(AGI)。

這是個不錯的計劃,但并未完全奏效。OpenAI 沿著這條路徑取得了巨大進展,使用強化學習解決了 Dota 游戲、機器人手部控制等問題。但該公司從未真正接近解決計算機使用或網頁導航的問題,而且在一個領域工作的強化學習智能體無法遷移到另一個領域。顯然還缺少了關鍵要素。

直到 GPT-2 或 GPT-3 出現后,研究人員才發現缺失的部分是先驗知識。需要強大的語言預訓練來將通用常識和語言知識提煉到模型中,然后這些模型才能被微調成為網頁智能體(WebGPT)或聊天智能體(ChatGPT)(并改變世界)。事實證明,強化學習中最重要的部分可能并不是強化學習算法或環境本身,而是先驗知識,而這些先驗知識可以通過與強化學習完全無關的方式獲得。

語言預訓練為聊天提供了良好的基礎,但在控制計算機或玩視頻游戲方面效果不佳,因為這些領域與互聯網文本的分布差異較大。監督微調(SFT)或強化學習(RL)在這些領域表現有限。

2019 年,作者嘗試通過 GPT-2 解決基于文本的游戲,但智能體需要進行數百萬步的強化學習才能達到一定水平,且難以遷移到新游戲。人類可以零樣本下玩新游戲并且表現更好,因為我們能夠進行抽象思考,例如「地下城是危險的,需要武器來對抗,可能需要在鎖住的箱子中尋找」。這種推理能力使我們能夠靈活應對新情況。

image.png

思考或推理是一種獨特的行動,它不直接改變外部世界,但其空間是開放和無限的。在經典強化學習中,這樣的無界組合會使決策復雜化。例如,如果從兩個盒子中選擇一個,其中一個有 100 萬美元,另一個為空,你的期望收益是 50 萬美元。若增加無限多的空盒子,期望收益變為零。然而,通過將推理引入強化學習環境的動作空間,我們能利用語言預訓練的先驗知識,實現泛化,并在決策時進行靈活的計算。讀者可以通過閱讀 ReAct 以了解智能體推理的初始故事。

論文地址:https://arxiv.org/pdf/2210.03629

目前,作者的直觀解釋是:即使你增加了無盡的空箱子,但在一生中你已經在各種游戲中看到了它們,選擇這些箱子準備你在任何給定游戲中更好地選擇裝錢的箱子。作者的抽象解釋是:語言通過智能體中的推理進行泛化。

一旦我們掌握了正確的強化學習先驗(語言預訓練)和適合的強化學習環境(將語言推理作為行動),就會發現實際上強化學習算法可能是最簡單的一部分。于是,我們推出了 o 系列、R1、深度研究、利用計算機的智能體,及其他將來的成果。這種變化多么諷刺!長期以來,強化學習研究者專注于算法,而忽視了環境和先驗知識 —— 所有的實驗都幾乎從零開始。我們耗費了幾十年才意識到,或許我們的優先級應該完全調整過來。

但正如 Steve Jobs 所說:你無法展望未來連接點,只能倒回來看時連接。

 下半場

這個配方正在徹底改變游戲規則,回顧上半場的游戲:

  • 我們開發新穎的訓練方法或模型,以提升基準測試的成績。
  • 我們創建更困難的基準,并繼續這個循環。

這個游戲正在被破壞,因為:

  • 這個配方基本上標準化并工業化了基準的提升,而不需要更多的新想法。隨著這個配方的擴展和良好的泛化,針對特定任務的新方法可能只會提高 5%,而下一個 o 系列模型可能在沒有明確針對的情況下提高 30%。
  • 即使我們創建更困難的基準,很快(而且越來越快)它們也會被這個配方解決。我的同事 Jason Wei 制作了一個漂亮的圖來很好地可視化這個趨勢:

image.png

那么下半場剩下什么可以玩?如果不再需要新方法,而更難的基準測試將越來越快地被解決,我們該怎么辦?

作者認為我們應該從根本上重新思考評估。這不僅意味著創造新的和更難的基準測試,而是從根本上質疑現有的評估設置并創造新的,這樣我們就被迫發明超越現有食譜的新方法。這很難,因為人類有慣性,極少質疑基本假設 —— 你只是把它們當作理所當然,未意識到它們是假設而非法律。

為了解釋慣性,假設你在歷史上基于人類考試發明了最成功的評估之一。它在 2021 年是一個非常大膽的想法,但 3 年后它就飽和了。你會怎么做?最可能的是創建一個更難的考試。或者假設你解決了簡單的編碼任務。你會怎么做?最可能的是找更難的編碼任務來解決,直到達到 IOI 金牌水平。

慣性是自然的,但這是問題所在。AI 在國際象棋和圍棋中擊敗世界冠軍,在 SAT 和律考中超過大多數人類,并在 IOI 和 IMO 中達到了金牌水平。但世界沒有太大變化,至少從經濟和 GDP 角度來看如此。

作者稱之為效用問題,并將其視為 AI 最重要的問題之一。

也許我們很快就會解決效用問題,也許不會。無論如何,這個問題的根本原因可能看似簡單:我們的評估設置在許多基本方面與現實世界的設置不同。舉兩個例子:

評估「應該」自動運行,因此通常一個智能體接收任務輸入,獨立完成任務,然后獲得任務獎勵。但在現實中,智能體必須在整個任務過程中與人類互動 —— 你不會只是給客服發一條超級長的消息,等 10 分鐘,然后期待得到詳細的回復來解決所有問題。通過質疑這種設置,新的基準被發明出來,以便在循環中引入真實的人類(例如,聊天機器人競技場)或用戶模擬(例如,tau-bench)。

image.png

評估「應該」在獨立同分布(i.i.d.)的情況下進行。如果你有一個包含 500 個任務的測試集,你會獨立運行每個任務,平均任務指標,然后得到一個整體指標。但在現實中,你是順序解決任務,而不是并行進行。谷歌的軟件工程師(SWE)在解決 google3 問題時,隨著對代碼庫的熟悉程度逐漸提高,解決問題的能力也會越來越好,但一個軟件工程智能體在同一個代碼庫中解決許多問題時,并不會獲得這樣的熟悉度。顯然,我們需要長期記憶方法(并且確實存在),但學術界沒有適當的基準來證明這種需求,甚至缺乏質疑作為機器學習基礎的 i.i.d. 假設的勇氣。

這些假設「一直」都是這樣,在 AI 發展的前半段,在這些假設下開發基準測試是可行的,因為當智能水平較低時,提高智能通常會提高實用性。但現在,這種通用方法在這些假設下肯定能奏效。所以,在后半段的新游戲中,我們的方式是:

  • 我們為現實世界的實用性開發新穎的評估設置或任務。
  • 我們用通用方法解決這些任務,或者用新穎的組件增強這些方法。然后繼續循環。

這個過程既困難又令人興奮,因為它不再是我們熟悉的。前期的參與者專注于解決視頻游戲和考試,而后期的參與者通過利用智能開發有用的產品,創造了價值數十億甚至數萬億美元的公司。前期充滿了增量式的方法和模型,而后期從一定程度上篩選這些方法。通用方法可能會超越增量式方法,除非你能夠通過創造新的假設打破這種通用性。唯有如此,才能進行真正改變游戲規則的研究。

歡迎來到后半段!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-12 13:00:05

2024-08-02 13:33:04

2018-05-29 10:16:40

超融合IT廠商產品

2025-07-29 09:05:00

2025-05-06 00:00:55

OpenAI算法GPT-4

2024-05-14 10:57:48

數字化轉型數據中臺

2020-12-30 14:25:08

人工智能云異構

2018-11-22 09:07:45

NFV網絡功能虛擬化網絡

2019-03-21 10:57:58

技術開源數據

2018-10-29 13:50:40

2016-12-21 16:53:51

大數據互聯網阿里

2025-12-15 17:34:11

2024-09-23 08:42:11

2016-12-13 12:34:23

寬帶電信移動

2021-03-04 09:37:40

云計算云原生計算云安全

2022-08-09 08:40:51

運營商互聯網云云計算

2020-07-13 07:00:03

微服務服務網格架構

2022-06-20 09:10:00

AI計算機量子

2018-04-25 09:37:41

AI

2018-08-12 11:54:41

BlackHat
點贊
收藏

51CTO技術棧公眾號

白浆视频在线观看| 午夜影院在线观看国产主播| 激情综合亚洲精品| 国产欧美一区二区三区久久 | 亚洲天堂色网站| 2021av在线| 精品久久香蕉国产线看观看gif| youjizzxxxx18| 久久一夜天堂av一区二区三区| 国产欧美精品aaaaaa片| 精品一区二区三区在线观看 | 欧美一区午夜精品| 99免在线观看免费视频高清| 婷婷综合在线观看| 国产69精品久久久久孕妇| 国产精品第一页第二页第三页| 99精品免费在线观看| a级精品国产片在线观看| 免费看毛片的网址| 91在线观看污| 手机看片福利盒子久久| 亚洲国产精品ⅴa在线观看| 国产无套粉嫩白浆内谢的出处| 久久网站热最新地址| 国产成人精品无码播放| 国产精品视频一二| 小泽玛利亚视频在线观看| 国产精品不卡在线| 人成福利视频在线观看| 一本大道久久a久久精品综合| 国产在线中文字幕| 欧美日夜夜逼| 26uuu国产在线精品一区二区| 亚洲免费小视频| 青青青免费在线| 91精品国产色综合久久不卡粉嫩| 激情丁香综合五月| 美女av一区二区三区 | 8x福利精品第一导航| 米仓穗香在线观看| 国产乱人伦偷精品视频不卡| 国产成人永久免费视频| 2021国产精品久久精品| 国产主播福利| 在线影院国内精品| 爱情岛亚洲播放路线| 中文字幕在线看视频国产欧美在线看完整| 亚洲男人在线| 国产精品久久久久久久久久久不卡 | 婷婷视频在线播放| 免费a级毛片在线观看| 亚洲午夜一级| 国产一区二区三区18| 91麻豆天美传媒在线| 亚洲综合图片区| 亚洲男人天堂2024| 国产亚洲自拍偷拍| 欧洲亚洲两性| 亚洲国产成人自拍| 精品一区二区三区免费看| 欧美妇女性影城| 日韩成人亚洲| 欧美在线影院在线视频| 国语对白精品一区二区| 成年人视频大全| 亚洲激情图片一区| 午夜激情在线| 久久久久久久久久久网站| 欧美+日本+国产+在线a∨观看| 亚洲国产欧美不卡在线观看| 国产精品女主播av| 国产在线观看免费麻豆| 影音先锋欧美精品| 亚洲精品成人| 欧美亚洲一区二区在线| 国产美女精品写真福利视频| 欧美激情videos| 亚洲午夜一级| 国产成人无码精品久久久性色| 亚洲一区二区五区| 校园春色亚洲色图| 91中文字幕在线观看| 成人av网站免费观看| 国产精品久久久久一区二区国产| 丝袜美腿亚洲一区二区| 亚洲东热激情| 国产xxxxx18| 亚洲无限av看| 亚洲美女毛片| 亚色视频在线观看| 亚洲精品一二区| 亚洲高清成人| h动漫在线视频| 美女性感视频久久久| 石原莉奈在线亚洲三区| 免费观看一二区视频网站| 伊人久久五月天| 久久一区亚洲| 翔田千里一区| 色综合视频网站| 国产乱子伦一区二区三区国色天香| 性欧美精品孕妇| 97成人精品区在线播放| 成人av资源在线| av中文资源在线资源免费观看| 91探花福利精品国产自产在线 | 视频一区中文字幕国产| 在线国产日本| 日本欧美中文字幕| 26uuu亚洲综合色欧美 | 欧美国产第一页| 亚洲成av人电影| 亚洲日本欧美在线| 国产精品国产馆在线真实露脸 | 成人午夜碰碰视频| 国产视频一区二区不卡| 免费成人小视频| 亚洲最大免费| 中文字幕欧美日韩一区| 精品日韩一区二区三区 | 欧美主播一区二区三区美女 久久精品人 | 老熟妇仑乱视频一区二区| 亚洲成人黄色在线观看| 日韩亚洲国产欧美| 青青青草网站免费视频在线观看| 欧美激情综合亚洲一二区| 久久五月婷婷丁香社区| 黄页免费欧美| 亚洲精品久久久久久久蜜桃臀| 亚洲精品少妇网址| 国产中文字幕一区| 在线毛片观看| 黄色网络在线观看| 在线亚洲欧美视频| www..com久久爱| 免费观看亚洲天堂| 亚洲福利精品视频| 国产91精品久久久| 亚洲天堂电影| 亚洲欧美一区二区原创| 精品国精品自拍自在线| 免费成人在线观看| 综合在线影院| 色综合久久久久无码专区| 美女扒开尿口让男人操亚洲视频网站| 久久蜜桃一区二区| 色婷婷av一区二区三区丝袜美腿| 欧美h版电影| 91久久精品www人人做人人爽 | 亚洲欧美三级在线| 成人精品一区二区三区中文字幕| 男人亚洲天堂| 成人在色线视频在线观看免费大全 | 欧美寡妇偷汉性猛交| 国产精品福利在线播放| 欧美r级电影| а√天堂中文在线资源bt在线| 蜜桃网站成人| 亚洲福利视频二区| 91香蕉视频黄| 激情婷婷综合| 成人片在线看| 777777av| 国产精品久久77777| 欧美欧美欧美欧美| 国产精品1区2区| 午夜a一级毛片亚洲欧洲| 992tv免费直播在线观看| 天天做天天躁天天躁| 奇米4444一区二区三区| 欧美高清一级片在线| 成人18精品视频| av亚洲在线观看| 国产伦理精品| 少妇高潮露脸国语对白| 欧美久久久久久久| 久久手机免费视频| 欧美亚洲国产一区二区三区| 国产精品一区二区三区99| 国产91精品对白在线播放| 黄色成人在线| 濑亚美莉vs黑人在线观看| 蜜桃麻豆www久久国产精品| 欧美肥婆姓交大片| 在线不卡a资源高清| 欧美经典一区二区三区| 亚洲欧美日本视频在线观看| 北条麻妃一区二区三区在线观看| www.亚洲资源| 亚洲性生活网站| 鲁片一区二区三区| 97视频在线播放| 亚洲国产日韩精品在线| 亚洲在线观看免费视频| 国产精品一区二区x88av| 欧美在线91| 国产毛片久久久| av大片在线| 91网在线观看| 美女av免费在线观看|