国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

被神化的o1模型,規(guī)劃能力到底如何?

發(fā)布于 2024-9-27 13:15
瀏覽
0收藏

最近OpenAI推出了新的o1模型,與之前類似檢索器的大語言模型(LLM)不同,o1被稱為推理器模型。o1模型可能是類似于 AlphaGo 的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),只不過所生成和評估的“動作”是思維鏈。

依據(jù) OpenAI 發(fā)布該模型的博客:o1模型與過去的大語言模型有所區(qū)別,是一個新系列的大型推理模型,代表了人工智能能力的新水平。所以,OpenAI將模型的計數(shù)器重置為1,命名為OpenAI o1模型。

在o1-preview 和 o1-mini 發(fā)布了一周后,作者在 PlanBench 測試數(shù)據(jù)集上進(jìn)行了性能測試。

PlanBench 是一套專門用于評估LLM規(guī)劃能力的工具套件。

那么,o1系列模型在規(guī)劃能力上到底表現(xiàn)如何?

1. 傳統(tǒng) LLM 在PlanBench上表現(xiàn)如何?

對于傳統(tǒng)大型語言模型(通過 RLHF 進(jìn)行微調(diào)的大規(guī)模 Transformer 模型),他們在 PlanBench 上的表現(xiàn)都差強(qiáng)人意,這表明依靠近似檢索通常無法穩(wěn)妥地解決規(guī)劃問題。

被神化的o1模型,規(guī)劃能力到底如何?-AI.x社區(qū)圖片

上表展示了前一代的LLM在Blocksworld和Mystery Blocksworld數(shù)據(jù)集上的表現(xiàn)。

在 Blocksworld 靜態(tài)數(shù)據(jù)集上,表現(xiàn)最好的模型是 LLaMA 3.1 405B,準(zhǔn)確率達(dá)到了62.6%。

但是在Mystery Blocksworld數(shù)據(jù)集上(該數(shù)據(jù)集為600個語義相同但句法混淆的測試數(shù)據(jù)),沒有任何一個模型能達(dá)到5%的準(zhǔn)確率。

2. o1系列模型表現(xiàn)如何?

傳統(tǒng)LLM是通過類似【檢索】的方式生成結(jié)果的,盡管在【System 1】類任務(wù)重表現(xiàn)出色,但是在更加偏向于【System 2】的任務(wù)上,比如:規(guī)劃任務(wù),表現(xiàn)一般。

據(jù)論文作者所知,o1模型是一個底層 LLM(很可能是經(jīng)過修改的 GPT-4o)整合進(jìn)了一個經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的系統(tǒng),該系統(tǒng)引導(dǎo)著私有思維鏈推理軌跡的創(chuàng)建、管理與最終選擇。目前大家能了解到的細(xì)節(jié)仍然不多,所以只能對其確切機(jī)制進(jìn)行推測。

本篇論文作者猜測 o1 與 LLM 主要有兩點(diǎn)不同:

? 1、增加了一個強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練階段(可能是為了從海量合成數(shù)據(jù)中學(xué)習(xí)不同思維鏈的q值)

? 2、引入了一種新的自適應(yīng)推理過程(或許在選擇特定的思維鏈之前,它會通過類似于展開的方式進(jìn)一步提煉已學(xué)習(xí)的q值)。

2.1 在靜態(tài)測試數(shù)據(jù)集上評估o1

在靜態(tài)的 PlanBench 測試集上對 o1-preview 和 o1-mini 進(jìn)行了測試 。

被神化的o1模型,規(guī)劃能力到底如何?-AI.x社區(qū)圖片

? 在 Blocksworld 測試數(shù)據(jù)集中,o1-preview 的表現(xiàn)遠(yuǎn)超任何 LLM,正確回答了這些實(shí)例中的 97.8%。

? 在 Mystery Blocksworld 中,o1-preview 未能保持這樣的高性能,但仍遠(yuǎn)超以往所有模型,正確回答了 52.8%。

? 在隨機(jī) Mystery Blocksworld 中,盡管準(zhǔn)確率有所下降,仍有37.3%的問題得到了正確解答,這與之前模型測試時的零通過率形成了鮮明對比。

隨機(jī) Mystery Blocksworld是為驗證數(shù)據(jù)污染是否破壞了效果,采用徹底隨機(jī)的字符串創(chuàng)建了新的混淆,并以語義對等且明確無誤的PDDL格式重新定義了問題域和具體問題的描述。

2.2 隨著問題規(guī)模增加,o1表現(xiàn)如何?

標(biāo)準(zhǔn)的 LLM 思維鏈提示方法較為脆弱,無法隨著問題規(guī)模穩(wěn)定擴(kuò)展,也難以誘導(dǎo)通用的算法程序遵循 。

被神化的o1模型,規(guī)劃能力到底如何?-AI.x社區(qū)圖片

在一組 110 個更大的 Blocksworld 問題上對模型進(jìn)行了測試。這組問題的長度范圍在 6 到 20 個塊之間,并且需要 20 到 40 步的最優(yōu)計劃。

沒有任何混淆的情況下,性能從之前報告的 97.8%迅速滑落。實(shí)際上,在這 110 個實(shí)例中,o1-preview 僅能處理 23.63%,并且大部分的準(zhǔn)確性來自于正確解決需要少于 28 步的問題。雖然這些模型總體令人贊嘆,但這表明它們的性能遠(yuǎn)非穩(wěn)健。

2.3 在無解問題上的性能

在真實(shí)場景中的一個例子是網(wǎng)絡(luò)漏洞分析,希望證明對于特定系統(tǒng)不存在攻擊計劃 。LLM 一直難以認(rèn)識到某些問題無法解決,而是自信地編造無意義的答案。

o1 宣稱已經(jīng)開始克服這個問題,并且現(xiàn)在能夠準(zhǔn)確地識別不可解的問題 。

為了系統(tǒng)地測試這一點(diǎn),通過向原始的 3 到 5 個塊測試集中的每個實(shí)例的目標(biāo)狀態(tài)添加一個“on(x,y)”類型的合取,使目標(biāo)無法達(dá)成,從而修改了 100 個實(shí)例 。

被神化的o1模型,規(guī)劃能力到底如何?-AI.x社區(qū)圖片

? 在 Blocksworld 上:

只有 27%的所有實(shí)例被 o1 正確且明確地識別為不可解。

在所有情況的 19%中,模型返回一個點(diǎn)或某種“[空計劃]”標(biāo)記,沒有任何關(guān)于不可解性的解釋或指示。
這些應(yīng)該被認(rèn)為是不正確的,因為“空計劃”只有在目標(biāo)已經(jīng)達(dá)成時才是正確的答案。

在其余 54%的情況下,模型生成了完整的(因此不可能且不正確!
)計劃。

? 在隨機(jī) Mystery Blocksworld 上,這些數(shù)字更糟:

? 16%的情況被正確識別為不可解,5%返回空計劃,其余 79%用完整的(不可能或不滿足目標(biāo)的)計劃作答。

因此,不可解的實(shí)例仍然是 LRM 的難題。此外,有時能夠正確注意到不可能的計劃是有代價的:現(xiàn)在模型有時會錯誤地聲稱可解的問題實(shí)際上是不可解的。

2.4 成本收益的權(quán)衡

盡管o1-preview可能比LLMs提供更高的精準(zhǔn)度,但它任然不能100%確保規(guī)劃的正確性,其成本效益也尚不明確。

不同于以往模型僅基于輸入和輸出令牌數(shù)量計費(fèi),o1的每次調(diào)用費(fèi)用還包括基于其使用的“推理令牌”數(shù)量的附加費(fèi)——這些作為推理過程一部分生成的令牌并不向用戶展示,并且以更高的輸出令牌費(fèi)率計費(fèi)。

目前,用戶無法控制生成的推理令牌數(shù)量。自這些模型推出不到一周,論文作者在這項基準(zhǔn)測試的o1模型實(shí)驗上已經(jīng)累積了1897.55美元的費(fèi)用!

像Fast Downward這樣的經(jīng)典規(guī)劃器在數(shù)據(jù)集上實(shí)現(xiàn)了100%的準(zhǔn)確率,僅用了一小部分的時間、計算和成本。

在個人計算機(jī)上運(yùn)行Fast Downward基本上是免費(fèi)的,平均每次實(shí)例0.265秒,比平均o1時鐘時間快了幾個數(shù)量級。結(jié)果也是可預(yù)測的,并且可以直接擴(kuò)展到更難的實(shí)例。

普通的LLMs通常非常擅長在格式之間轉(zhuǎn)換問題,并且可以與經(jīng)典規(guī)劃器一起使用,成本僅為LRMs的一小部分。

對于沒有簡單的PDDL領(lǐng)域和實(shí)例規(guī)范的問題,LLM-Modulo系統(tǒng)可能是一個更安全、更便宜的方法:在循環(huán)中運(yùn)行一個更小、更快的LLM與一個可靠的驗證器一起,以便組合系統(tǒng)只輸出保證正確的解決方案。

這種LLM-Modulo方法已經(jīng)可以在原始Blocksworld測試集的一個子集上實(shí)現(xiàn)82%的準(zhǔn)確率,以及在物流領(lǐng)域?qū)崿F(xiàn)70%的準(zhǔn)確率。

這些后兩種方法提供的準(zhǔn)確性保證在像o1這樣的LRMs中嚴(yán)重缺乏。如果一個通用推理系統(tǒng)繼續(xù)自信地制定錯誤的計劃,那么它就不能被部署在安全關(guān)鍵和非遍歷領(lǐng)域。

o1是一個完全的黑匣子系統(tǒng),甚至比以前的模型更是如此,OpenAI決定不僅要保密架構(gòu)和隱藏推理痕跡,而且要警告甚至禁止任何試圖理解它們內(nèi)部情況的人,這使得可解釋性幾乎是不可能的,并且降低了對系統(tǒng)整體的信任。

? 論文原文: https://arxiv.org/abs/2409.13373

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
亚洲国产精品视频在线观看| 日本va中文字幕| av高清在线免费观看| 依依综合在线| 成人国产视频在线| 国产一区二区精品福利地址| 国产精品17p| 最新中文字幕一区二区三区| 国产精品久久久久9999| 一级特黄视频| 久久精品伊人| 欧美老女人在线视频| 99re99| 热久久免费视频| 欧美激情按摩在线| 国产在线一二三| 99视频精品在线| 国产成人看片| 色成人综合网| 亚洲精品日产精品乱码不卡| 欧美日韩大陆一区二区| 国产手机免费视频| 一区二区三区高清在线| 波多野结衣 作品| 蜜臀精品一区二区三区在线观看 | 国产精品国产三级国产aⅴ原创| 国产偷亚洲偷欧美偷精品| 亚洲国产精品推荐| 欧美日本高清| 午夜国产精品视频免费体验区| 国产美女高潮在线观看| 最新日韩在线| 色偷偷av一区二区三区乱| 性视频在线播放| 国产香蕉97碰碰久久人人| 九九九九免费视频| 老司机一区二区| 国内成+人亚洲| 国产精品zjzjzj在线观看| 免费久久久一本精品久久区| 粉嫩的18在线观看极品精品| 日日骚一区二区网站| 亚洲成人精选| 奇米一区二区三区四区久久| 蜜桃视频www网站在线观看| 日韩欧美国产一二三区| 亚洲欧美激情四射在线日| 亚洲成人黄色在线| 中文字幕日韩欧美精品在线观看| 国产成人精品电影久久久| 成人免费在线看片| 色网站免费在线观看| 亚洲五月综合| 91亚洲精华国产精华| 国产亚洲制服色| 日本xxxxxxx免费视频| 成人激情校园春色| 水蜜桃一区二区三区| 日韩亚洲国产中文字幕欧美| 国产片在线观看| 日韩美女视频一区二区在线观看| 91tv精品福利国产在线观看| 91嫩草在线播放| 久热精品视频在线免费观看 | 激情伊人五月天久久综合| 欧洲成人免费视频| 亚洲天堂成人网| 日韩黄色影院| 亚洲天堂电影网| 99re这里只有精品6| 三上悠亚在线一区二区| 亚洲蜜臀av乱码久久精品蜜桃| 日韩欧美中文在线观看| 91免费看片在线| 欧美一区二区三区电影| caoporn成人| 国产成人精品www牛牛影视| 精品久久久久国产| 亚洲精品一区中文| 欧美香蕉视频| 亚洲精品国久久99热| 国产精品自拍毛片| av在线free| 日韩电影免费观看在| 日韩视频免费观看高清完整版在线观看| 亚洲日本青草视频在线怡红院| 久久众筹精品私拍模特| 成人三级av在线| 999色成人| 在线观看成人影院| 欧美精品精品一区| 亚洲色图二区| 欧美高清在线| 青春草视频在线观看| 成人在线观看www| 免费91麻豆精品国产自产在线观看| 日韩欧美电影在线观看| 免费在线观看不卡| 成人欧美大片| 宅男深夜免费观看视频| 黄色www在线观看| 欧美韩国一区二区| 婷婷综合六月| 成人黄色免费| 欧美性大战久久久久| 夜夜操天天操亚洲| 国产一区二区三区黄视频 | 国产精品久久久久久福利一牛影视| 日本欧美高清| 99国产在线| 国产三级一区二区| 欧美三级网页| 污视频网站观看| 自拍视频一区二区三区| 欧美日本免费一区二区三区| 国产精品美日韩| 91精品国产66| 亚洲欧美日韩精品久久久| 亚洲成人网久久久| 91久久精品一区二区三区| 免费一区二区| 在线观看国产一级片| 9色porny| 中文欧美日本在线资源| 日韩欧美激情在线| 欧美日韩在线播放| 亚洲不卡av不卡一区二区| 福利一区二区免费视频| 麻豆免费在线| 国模冰冰炮一区二区| 日韩精品毛片| 国产美女精品写真福利视频| 亚洲视频一区二区三区| 欧美成人性网| 国产精品久久久久久久久久齐齐| 亚洲第一综合网站| 精品视频在线免费看| 在线观看日韩高清av| 91久久午夜| 国产日韩欧美一区二区三区在线观看| 白白色视频在线| 嫩草影院发布页| 欧美日韩在线精品| 一区二区精品国产| 播放灌醉水嫩大学生国内精品| 800av在线免费观看| 九七午夜视频| 亚洲乱码一区二区三区| 久色视频在线播放| 国产不卡在线观看| 激情伦成人综合小说| 亚洲国产成人精品女人久久久| 亚洲图片欧美午夜| 2020欧美日韩在线视频| 色综合久久久久综合体桃花网| 激情综合一区二区三区| 国产欧美日本一区二区三区| 亚洲人成网站精品片在线观看| 黑人巨大精品欧美一区免费视频| 日韩精品一区第一页| 亚洲另类av| 大菠萝精品导航| 精品人人人人| 日本一级理论片在线大全| 最近中文字幕在线中文视频| 日本xxxxx18| 久热久精久品这里在线观看 | 欧美亚洲精品一区二区| 成人丁香基地| 成人免费高清观看| 黄色三及免费看| 日韩电影免费观| 亚洲欧美文学| 亚洲美女淫视频| 久久精品国产亚洲精品2020| 欧美性一级生活| 亚洲视频在线观看三级| 亚洲护士老师的毛茸茸最新章节| 国产日韩av在线播放| 欧美另类xxx| 真实国产乱子伦对白视频| 久久精品蜜桃| 欧美韩一区二区| 成人aa视频在线观看| 精品福利av导航| 日韩av在线天堂网| 国产精品无圣光一区二区| 久久成人精品无人区| 久久精品天堂| 国产精品白丝久久av网站| 欧美性感一类影片在线播放| 国产精品扒开腿做爽爽爽视频软件| 亚洲ai欧洲av| 手机看片福利日韩| 影音先锋欧美在线| 99免费看香蕉视频| 国产精品久久久久77777丨| 久久99国产精品久久| 精品久久香蕉国产线看观看gif| 久久这里只有精品99|