国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

語(yǔ)言游戲讓AI自我進(jìn)化,谷歌DeepMind推出蘇格拉底式學(xué)習(xí)

人工智能
近日,谷歌DeepMind的研究人員推出了蘇格拉底式學(xué)習(xí),在沒(méi)有外部數(shù)據(jù)的情況下,讓AI通過(guò)語(yǔ)言游戲不斷變強(qiáng)。

沒(méi)有外部數(shù)據(jù),AI自己也能進(jìn)化?

聽(tīng)起來(lái)有點(diǎn)嚇人,于是谷歌DeepMind的這項(xiàng)研究很快引起了廣泛關(guān)注。

圖片圖片

論文地址:https://arxiv.org/pdf/2411.16905

新的方法被命名為「蘇格拉底式學(xué)習(xí)」(Socratic Learning),能夠使AI系統(tǒng)自主遞歸增強(qiáng),超越初始訓(xùn)練數(shù)據(jù)的限制。

圖片圖片

研究人員表示,只要滿(mǎn)足三個(gè)條件,在封閉系統(tǒng)中訓(xùn)練的智能體可以掌握任何所需的能力:

a)收到足夠信息量和一致的反饋;

b)經(jīng)驗(yàn)/數(shù)據(jù)覆蓋范圍足夠廣泛;

c)有足夠的能力和資源。

本文考慮了假設(shè) c)不是瓶頸的情況下,在封閉系統(tǒng)中 a)和 b)會(huì)產(chǎn)生哪些限制。

圖片圖片

蘇格拉底式學(xué)習(xí)的核心是語(yǔ)言游戲(即結(jié)構(gòu)化的交互),智能體在其中交流、解決問(wèn)題并以分?jǐn)?shù)的形式接收反饋。

整個(gè)過(guò)程中,AI在封閉的系統(tǒng)中自己玩游戲、生成數(shù)據(jù)、然后改進(jìn)自身的能力,無(wú)需人工輸入。

如果游戲玩膩了,AI還可以自己創(chuàng)建新游戲,解鎖更多抽象技能。

Socratic Learning消除了固定架構(gòu)的局限,使AI的表現(xiàn)能夠遠(yuǎn)超其初始數(shù)據(jù)和知識(shí),且僅受時(shí)間的限制。

邁向真正自主的AI

考慮一個(gè)隨時(shí)間演變的封閉系統(tǒng)(無(wú)輸入、無(wú)輸出),如下圖所示。

圖片圖片

在系統(tǒng)中,有一個(gè)具有輸入和輸出的實(shí)體(智能體,agent),它也會(huì)隨著時(shí)間的推移而變化。系統(tǒng)外部有一個(gè)觀察者,負(fù)責(zé)評(píng)估智能體的性能。

由于系統(tǒng)是封閉的,觀察者的評(píng)估無(wú)法反饋到系統(tǒng)中。因此,智能體的學(xué)習(xí)反饋必須來(lái)自系統(tǒng)內(nèi)部,例如損失、獎(jiǎng)勵(lì)函數(shù)、偏好數(shù)據(jù)或批評(píng)者。

考慮藍(lán)色虛線(xiàn)的路徑,讓智能體輸出影響未來(lái)的智能體輸入,并且性能得到提高(自我改進(jìn)過(guò)程),如果輸入和輸出空間兼容,則這種自我提升是遞歸的。

自我提升過(guò)程的一個(gè)典型例子是自我博弈,系統(tǒng)讓智能體作為游戲的雙方,從生成一個(gè)無(wú)限的體驗(yàn)流,并帶有獲勝反饋,來(lái)指導(dǎo)學(xué)習(xí)的方向。

圖片圖片

反饋是其中的關(guān)鍵一環(huán),AI的真正意義是相對(duì)于外部觀察者的,但在封閉的系統(tǒng)中,反饋只能來(lái)自?xún)?nèi)部的智能體。

這對(duì)于系統(tǒng)來(lái)說(shuō)是一個(gè)挑戰(zhàn):讓反饋與觀察者保持一致,并在整個(gè)過(guò)程中保持一致。

RL的自我糾正能力在這里并不適用,可以自我糾正的是給定反饋的行為,而不是反饋本身。

蘇格拉底式學(xué)習(xí)

與輸出僅影響輸入分布的一般情況相比,遞歸的自我提升更具限制性,但中介作用更少,最常見(jiàn)的是將智能體輸出映射到輸入的環(huán)境實(shí)例化。

這種類(lèi)型的遞歸是許多開(kāi)放式流程的一個(gè)屬性,而開(kāi)放式改進(jìn)正是ASI的一個(gè)核心特征。

輸入和輸出空間兼容的一個(gè)例子是語(yǔ)言。人類(lèi)的廣泛行為都是由語(yǔ)言介導(dǎo)的,特別是在認(rèn)知領(lǐng)域。

語(yǔ)言的一個(gè)相關(guān)特征是它的可擴(kuò)展性,即可以在現(xiàn)有語(yǔ)言中開(kāi)發(fā)新的語(yǔ)言,比如在自然語(yǔ)言中開(kāi)發(fā)的形式數(shù)學(xué)或編程語(yǔ)言。

圖片圖片

綜上,本文選擇研究智能體在語(yǔ)言空間中遞歸自我提升的過(guò)程。蘇格拉底式學(xué)習(xí),模仿了蘇格拉底通過(guò)提問(wèn)、對(duì)話(huà)和重復(fù)的語(yǔ)言互動(dòng),來(lái)尋找或提煉知識(shí)的方法。

蘇格拉底并沒(méi)有去外界收集現(xiàn)實(shí)世界中的觀察結(jié)果,這也符合本文強(qiáng)調(diào)的封閉系統(tǒng)。

圖片圖片

局限性

在自我提升的三個(gè)必要條件中,覆蓋率和反饋原則上適用于蘇格拉底式學(xué)習(xí),并且是不可簡(jiǎn)化的。

從長(zhǎng)遠(yuǎn)角度來(lái)看,如果計(jì)算和內(nèi)存保持指數(shù)級(jí)增長(zhǎng),那么規(guī)模限制只是一個(gè)暫時(shí)的障礙。另一方面,即使是資源受限的場(chǎng)景,蘇格拉底式學(xué)習(xí)可能仍會(huì)產(chǎn)生有效的高級(jí)見(jiàn)解。

覆蓋率意味著蘇格拉底式學(xué)習(xí)系統(tǒng)必須不斷生成數(shù)據(jù)(語(yǔ)言),同時(shí)隨著時(shí)間的推移保持或擴(kuò)大多樣性。

生成對(duì)于LLM來(lái)說(shuō)是小菜一碟,難的是在遞歸過(guò)程中防止漂移、崩潰或者生成分布不夠廣泛。

反饋要求系統(tǒng)繼續(xù)產(chǎn)生關(guān)于智能體輸出的反饋,這在結(jié)構(gòu)上需要一個(gè)能夠評(píng)估語(yǔ)言的批評(píng)者,且應(yīng)與觀察者的評(píng)估指標(biāo)保持充分一致。

然而,語(yǔ)言空間中定義明確的指標(biāo)通常僅限于特定的任務(wù),而AI反饋則需要更通用的機(jī)制,尤其是在允許輸入分布發(fā)生變化的情況下。

目前的LLM訓(xùn)練范式都沒(méi)有足以用于蘇格拉底式學(xué)習(xí)的反饋機(jī)制。比如下一個(gè)標(biāo)記預(yù)測(cè)損失,與下游使用情況不一致,并且無(wú)法推斷訓(xùn)練數(shù)據(jù)之外的情況。

根據(jù)定義,人類(lèi)的偏好是一致的,但無(wú)法在封閉系統(tǒng)的學(xué)習(xí)中使用。將人類(lèi)偏好緩存到學(xué)習(xí)的獎(jiǎng)勵(lì)模型中或許可行,但從長(zhǎng)遠(yuǎn)來(lái)看,可能會(huì)產(chǎn)生錯(cuò)位,并且在分布外的數(shù)據(jù)上效果也很弱。

換句話(huà)說(shuō),純粹的蘇格拉底式學(xué)習(xí)是可能的,但需要通過(guò)強(qiáng)大且一致的批評(píng)者生成廣泛的數(shù)據(jù)。當(dāng)這些條件成立時(shí),這種方法的上限就只取決于能夠提供的計(jì)算資源。

LANGUAGE GAMES ARE ALL YOU NEED

語(yǔ)言、學(xué)習(xí)和基礎(chǔ)是經(jīng)過(guò)充分研究的話(huà)題。其中一個(gè)特別有用的概念是哲學(xué)家Wittgenstein提出的「語(yǔ)言游戲」。

圖片圖片

對(duì)他來(lái)說(shuō),捕捉意義的不是文字,而需要語(yǔ)言的互動(dòng)性質(zhì)才能做到這一點(diǎn)。

具體來(lái)說(shuō),將語(yǔ)言游戲定義為交互協(xié)議(一組規(guī)則,可以用代碼表達(dá)),指定一個(gè)或多個(gè)智能體(玩家)的交互,這些智能體具有語(yǔ)言輸入和輸出,以及在游戲結(jié)束時(shí)每個(gè)玩家的標(biāo)量評(píng)分函數(shù)。

這樣定義的語(yǔ)言游戲解決了蘇格拉底式學(xué)習(xí)的兩個(gè)主要需求:為無(wú)限的交互式數(shù)據(jù)生成提供了一種可擴(kuò)展的機(jī)制,同時(shí)自動(dòng)提供反饋信號(hào)(分?jǐn)?shù))。

從實(shí)用的角度來(lái)看,游戲也是一個(gè)很好的入門(mén)方式,因?yàn)槿祟?lèi)在創(chuàng)造和磨練大量游戲和玩家技能方面有著相當(dāng)多的記錄。

實(shí)際上,許多常見(jiàn)的LLM交互范式也能被很好地表示為語(yǔ)言游戲,例如辯論、角色扮演、心智理論、談判、越獄防御,或者是在封閉系統(tǒng)之外,來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)。

Wittgenstein曾表示,他堅(jiān)決反對(duì)語(yǔ)言具有單一的本質(zhì)或功能。

相比于單一的通用語(yǔ)言游戲,使用許多狹義但定義明確的語(yǔ)言游戲的優(yōu)勢(shì)在于:對(duì)于每個(gè)狹義的游戲,都可以設(shè)計(jì)一個(gè)可靠的分?jǐn)?shù)函數(shù)(或評(píng)論家),這對(duì)于通用游戲來(lái)說(shuō)非常困難。

從這個(gè)角度來(lái)看,蘇格拉底式學(xué)習(xí)的整個(gè)過(guò)程就是一個(gè)元游戲,一個(gè)安排了智能體玩和學(xué)習(xí)的語(yǔ)言游戲(一個(gè)「無(wú)限」的游戲)。

圖片圖片

蘇格拉底因「腐蝕青年」而被判處死刑并被處決。這也意味著,蘇格拉底過(guò)程并不能保證與外部觀察者的意圖保持一致。

語(yǔ)言游戲作為一種機(jī)制也沒(méi)有回避這一點(diǎn),但它所需要的不是在單個(gè)輸入和輸出的細(xì)粒度上對(duì)齊的批評(píng)家,而是一個(gè)可以判斷應(yīng)該玩哪些游戲的「元批評(píng)家」:根據(jù)是否對(duì)整體性能有貢獻(xiàn)來(lái)過(guò)濾游戲。

此外,游戲的有用性不需要先驗(yàn)評(píng)估,可以在玩了一段時(shí)間后事后判斷,畢竟事后檢測(cè)異常可能比設(shè)計(jì)時(shí)阻止要容易得多。

那么問(wèn)題來(lái)了,如果從蘇格拉底和他的弟子開(kāi)始,數(shù)千年來(lái)一直不受干擾地思考和改進(jìn),到現(xiàn)在會(huì)產(chǎn)生什么樣的文化產(chǎn)物、什么樣的知識(shí)、什么樣的智慧?

參考資料:https://x.com/kimmonismus/status/1862993274727793047

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-01-17 08:00:00

2017-11-08 11:20:14

谷歌人工智能技術(shù)

2025-08-11 09:21:00

2024-04-01 07:00:00

模型AI

2025-01-24 09:10:00

2024-12-02 12:24:15

2025-05-15 09:17:00

2023-09-14 13:10:48

2024-01-15 14:44:19

語(yǔ)言模型PaLMAI

2025-10-22 09:00:00

2023-08-30 07:29:39

SynthID谷歌

2024-03-14 11:55:21

2025-11-10 08:40:00

LLM模型AI

2023-08-21 11:10:32

生成式AI谷歌

2025-07-31 01:15:00

ChatGPTAI教育

2023-11-21 14:48:11

2017-11-22 09:22:00

AI智能機(jī)器學(xué)習(xí)

2024-11-08 12:18:39

SynthID谷歌AI

2025-10-13 09:03:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

黄页在线观看| 久久综合久中文字幕青草| 麻豆视频成人| 国产精品22p| 亚洲精品一区在线观看| 很黄很污的网站| 国产一区二区三区黄视频 | 九九九九精品| 色爱综合av| 亚洲丝袜一区在线| 欧美日韩成人高清| 欧美成人自拍视频| av在线播放资源| 91黄色在线观看| 国产精品粉嫩av| 久久婷婷成人综合色| 亚洲免费不卡| 亚洲精品四区| 国产日产欧美a一级在线| 粉嫩一区二区三区在线观看| 精品国产凹凸成av人网站| 九色在线播放| 性欧美疯狂xxxxbbbb| a√免费观看在线网址www| 99re这里只有精品视频首页| 伊人久久大香线蕉午夜av| 国产欧美激情| 国产精品三区www17con| 手机在线一区二区三区| 9.1国产丝袜在线观看| 久久亚洲人体| 最近2019中文免费高清视频观看www99 | 在线一级视频| 国产精品卡一卡二卡三| 男女曰b免费视频| av在线不卡观看免费观看| 久久av秘一区二区三区| 男女性色大片免费观看一区二区| 国产尤物99| 亚洲精品护士| 免费影院在线观看一区| 先锋影音久久久| 日本在线免费观看一区| 久久国产毛片| 日韩精品一区二区三区外面| 蘑菇福利视频一区播放| 日韩精品伦理第一区| 麻豆91在线观看| 三年中文高清在线观看第6集| 日韩精品成人一区二区在线| 亚洲午夜精品久久久中文影院av | 日韩一区二区三区免费看| 最近高清中文在线字幕在线观看| 欧美色精品在线视频| 日本视频在线观看| 日韩一区二区麻豆国产| 黄在线免费观看| 欧美成人bangbros| 色老太综合网| 欧美激情亚洲综合一区| 免费av一区| 成人av蜜桃| 蜜臀久久99精品久久久久宅男| 无码日本精品xxxxxxxxx| 久久―日本道色综合久久| 亚洲欧美自偷自拍另类| 欧美日韩一区二区免费在线观看| 天堂а√在线官网| 国产视频在线观看一区二区| 日韩电影精品| 国产999精品| 亚洲天堂一区二区三区四区| 美日韩精品免费| 成人国产在线观看| 992tv在线观看免费进| 欧美日韩成人在线一区| 91在线亚洲| 国产精品久久久久影院日本| 日韩网站在线| 国产成a人亚洲精v品在线观看| 国产精品久久久久久久久图文区| 在线视频中文字幕久| 精品日韩av一区二区| 亚洲三级在线| 91亚洲精品在线观看| 久久精品国产一区二区三区免费看| 国产美女无遮挡网站| 欧美日韩一区二区精品| 免费v片在线观看| 欧美影院在线播放| 老妇喷水一区二区三区| 国产主播中文字幕| 欧美三级视频在线观看| 国产精品原创视频| 成人性生交大片免费看小说| 久久99热99| 国产在线传媒| 中文字幕视频在线免费欧美日韩综合在线看 | av毛片在线播放| 欧美成人网在线| 韩国一区二区三区在线观看| 美女扒开大腿让男人桶| 五月婷婷另类国产| 亚洲天堂一区二区| 亚洲xxxx视频| 久久理论电影网| 久草中文在线| 青青草原一区二区| 国产福利一区在线| 国产中文在线观看| 欧美大片在线看免费观看| 亚洲区欧美区| 1069男同网址| 一区二区三区国产视频| 9久re热视频在线精品| 四虎av网址| 中文字幕精品一区久久久久| 日韩一级网站| 97影院在线观看| 欧美巨大黑人极品精男| 欧美bbbbb| 福利片在线看| 国产精品91久久久| 高清国产一区二区三区| 九色porny在线| 国产欧美韩国高清| 国产精品国产自产拍高清av王其| 欧美7777| 丝袜足脚交91精品| 欧美视频在线一区二区三区 | 久久久久久久影视| 午夜精品久久久久久久99热浪潮| 激情图片小说一区| 看黄网站在线| 亚洲影视九九影院在线观看| 国产精品网站导航| 久久久久伊人| 精品一区二区成人免费视频 | 欧美亚洲日本一区| 综合综合综合综合综合网| 免费无码不卡视频在线观看| 亚洲国内高清视频| 久久亚洲风情| 欧美激情午夜| 国产区一区二区三区| 欧美日韩国产一区中文午夜| 综合亚洲色图| 深夜宅男网站免费进入| 午夜精品久久久久久久男人的天堂| heyzo一本久久综合| 日韩高清不卡| 欧美一级片免费播放| 亚洲天堂影视av| 狠狠色丁香婷婷综合久久片| 视频在线观看入口黄最新永久免费国产| 亚洲一区二区中文字幕| 亚洲欧美另类在线| 欧美人与牛zoz0性行为| 成人免费淫片| 国产91免费观看| 亚洲一区二区欧美| 99久久久久国产精品| 午夜成人影视| 波多野结衣成人在线| 欧美日韩视频专区在线播放| 亚洲黄色影院| 国产三区在线观看| 亚洲.欧美.日本.国产综合在线| 亚洲第一级黄色片| 国产91丝袜在线观看| 伊人久久一区| **三级三级97片毛片| 国产精品热视频| 欧美午夜免费电影| 久久只有精品| 欧美国产日韩电影| 2025韩国理伦片在线观看| 91精品国产高清久久久久久91| 一区二区在线电影| 激情另类综合| 厕沟全景美女厕沟精品| aⅴ在线免费观看| 2020久久国产精品| 色狠狠桃花综合| 蜜桃久久av一区| 国产日韩在线观看视频 | 久久av中文字幕片| 成人福利一区二区| 成人羞羞视频免费看看| 高清免费日韩| 亚洲片av在线| 亚洲青青青在线视频| 欧美日韩专区| 桃花岛tv亚洲品质| 天美星空大象mv在线观看视频| 国产精品精品久久久| 欧美v亚洲v综合ⅴ国产v| 久久久久国产精品麻豆| 小说区亚洲自拍另类图片专区| 久色国产在线|