国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

LLM仍然不能規(guī)劃,刷屏的OpenAI o1遠未達到飽和

人工智能 新聞
實驗證明,大模型的 System 2 能力還有待開發(fā)。

規(guī)劃行動方案以實現(xiàn)所需狀態(tài)的能力一直被認為是智能體的核心能力。隨著大型語言模型(LLM)的出現(xiàn),人們對 LLM 是否具有這種規(guī)劃能力產(chǎn)生了極大的興趣。

最近,OpenAI 發(fā)布了 o1 模型,一舉創(chuàng)造了很多歷史記錄。o1 模型擁有真正的通用推理能力。在一系列高難基準測試中展現(xiàn)出了超強實力,相比 GPT-4o 有巨大提升,讓大模型的上限從「沒法看」直接上升到優(yōu)秀水平,不專門訓(xùn)練直接數(shù)學(xué)奧賽金牌,甚至能在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家。

那么,o1 模型是否具備上述規(guī)劃能力?

2022 年,來自亞利桑那州立大學(xué)(ASU)的研究團隊開發(fā)了評估 LLM 規(guī)劃能力的基準 ——PlanBench。現(xiàn)在,亞利桑那州立大學(xué)研究團隊全面審視了當前 LLM 在 PlanBench 上的表現(xiàn),包括 o1 模型。值得注意的是,雖然 o1 在基準測試上性能超過了競爭對手,但它還遠未達到飽和狀態(tài)。

圖片

  • 論文標題:LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
  • 論文地址:https://arxiv.org/pdf/2409.13373

SOTA 性能的 LLM 仍然不會規(guī)劃

對于 vanilla LLM(通過 RLHF 微調(diào)的 Transformer 模型)來說,PlanBench 基準仍然充滿挑戰(zhàn),即使在最簡單的測試集上,模型表現(xiàn)也不佳。

下表為當前和前一代 LLM 的結(jié)果,測試領(lǐng)域包括 Blocksworld 和 Mystery Blocksworld(混淆版本),其中前者是在 600 個 3 到 5 個 block Blocksworld 問題靜態(tài)測試集上運行的結(jié)果,后者是在 600 個語義相同但語法混淆的實例(稱之為 Mystery Blocksworld)上的運行結(jié)果。

在這些模型中,LLaMA 3.1 405B 在常規(guī) Blocksworld 測試中表現(xiàn)最佳,準確率達到 62.6%。然而模型在 Mystery Blocksworld 的表現(xiàn)卻遠遠落后——沒有一個 LLM 在測試集上達到 5%,并且在一個領(lǐng)域上的性能并不能清楚地預(yù)測另一個領(lǐng)域的性能。

這種結(jié)果揭示了 LLM 本質(zhì)上仍是近似檢索系統(tǒng)。

圖片

更進一步的,作者測試了自然語言提示和 PDDL,發(fā)現(xiàn) vanilla 語言模型在前者上的表現(xiàn)更好。

作者還發(fā)現(xiàn),與之前的說法相反,one-shot 提示并不是對 zero-shot 的嚴格改進。這在對 LLaMA 系列模型的測試中最為明顯。

值得注意的是,基準測試的原始迭代沒有考慮效率,因為 vanilla LLM 生成某些輸出所花費的時間僅取決于該輸出的長度,而與實例的語義內(nèi)容或難度無關(guān)。不過作者也對各個模型的提示成本進行了比較,如表格 4 所示。

從近似檢索到近似推理:評估 o1

標準自回歸 LLM 通過近似檢索生成輸出,但這些模型面臨一個問題,即在 System 1 任務(wù)中表現(xiàn)出色,但在對規(guī)劃任務(wù)至關(guān)重要的類似 System 2 的近似推理能力上表現(xiàn)不佳。

回顧之前的研究,從 LLM 中獲取可靠規(guī)劃能力的最佳方法是將它們與生成測試框架中的外部驗證器配對,即所謂的 LLM-Modulo 系統(tǒng)。o1 嘗試以不同的方式為底層 LLM 補充類似 System 2 的能力。

據(jù)了解,o1 是將底層 LLM(很可能是經(jīng)過修改的 GPT-4o)結(jié)合到 RL 訓(xùn)練的系統(tǒng)中,該系統(tǒng)可指導(dǎo)私有 CoT 推理軌跡的創(chuàng)建、管理和最終選擇。但是目前確切的細節(jié)很少,因此只能推測其確切機制。

作者猜測 o1 和 LLM 之間有兩個主要區(qū)別:一個額外的強化學(xué)習(xí)預(yù)訓(xùn)練階段和一個新的自適應(yīng)擴展推理程序。無論如何,從現(xiàn)有細節(jié)可以看出,該模型在本質(zhì)上與以前的 LLM 根本不同。

在原始測試集上評估 LRM:作者在靜態(tài) PlanBench 測試集上測試了 o1-preview 和 o1-mini,結(jié)果如表 2 所示。其中,600 個 Blocksworld 實例范圍從 3 到 5 個 block 不等,需要 2 到 16  個 step 的規(guī)劃才能解決。

結(jié)果顯示,o1 正確回答了 97.8% 的這些實例,但在 Mystery Blocksworld 上,o1 沒有保持這種性能,但也遠遠超過了以前的模型,正確回答了 52.8% 的實例。

圖片

標準 LLM  CoT 提示方法很脆弱,無法隨著問題規(guī)模的擴大而穩(wěn)健地擴展。作者在一組較大的 Blocksworld 問題上測試了這些模型(見圖 3)。此集合中的問題長度從 6 到 20 個 block 不等,需要 20 到 40 step 的最佳規(guī)劃。

作者發(fā)現(xiàn)模型性能從之前報告的 97.8% 迅速下降。事實上,在這組實例中,o1-preview 僅實現(xiàn)了 23.63% 的準確率。可以看出雖然這些模型總體上令人印象深刻,但這表明它們的性能仍然遠不夠穩(wěn)健。

在不可解決實例上的性能:接著作者修改了測試集中的一些實例,結(jié)果如表 3 所示。在 Blocksworld 上,只有 27% 的實例被 o1 正確且明確地識別為無法解決。在所有案例中,有 19% 的模型返回一個點或「empty plan」標記,沒有任何解釋或指示無法解決。在其余 54% 的案例中,模型生成了一個完整的規(guī)劃。

在隨機 Mystery Blocksworld 上,這些數(shù)字更糟:16% 的案例被正確識別為無法解決,5% 返回了一個「empty plan」,其余 79% 的案例得到了完整規(guī)劃的回答。

圖片

準確率 / 成本權(quán)衡與保證

研究團隊發(fā)現(xiàn):o1-preview 似乎在每個問題使用的推理 token 數(shù)量方面受到限制。如果 o1 的正式版本消除了這一限制,可能會提高整體準確性,但也可能導(dǎo)致更不可預(yù)測(甚至高得離譜)的推理成本。o1-mini 雖然更便宜,但通常性能較差。

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-11-10 08:51:00

LLMOpenAI模型

2024-09-13 06:32:25

2024-09-24 11:01:03

2024-09-19 18:03:31

2024-11-07 15:40:00

2024-12-05 10:16:14

2024-10-05 00:00:00

2024-09-13 12:34:54

2017-09-27 10:48:31

2025-02-03 14:17:27

2024-09-13 10:06:21

2024-12-09 11:06:31

2024-11-07 22:59:36

2023-11-27 00:40:56

2024-09-14 14:00:00

AI模型

2024-09-13 09:26:17

2025-07-07 09:04:00

2024-11-25 15:50:00

模型訓(xùn)練

2024-10-09 13:42:29

2025-02-20 09:11:28

點贊
收藏

51CTO技術(shù)棧公眾號

欧美日韩一区在线| 神马香蕉久久| 婷婷精品进入| 9191精品国产综合久久久久久| 久久成人资源| 少妇免费视频| 午夜精品视频一区二区三区在线看| 91精品国产欧美一区二区成人| 久99久精品视频免费观看| 狠狠色丁香婷综合久久| 欧美污视频久久久| 麻豆tv免费在线观看| 免费在线日韩av| 一级女性全黄久久生活片免费| 国产精品久久久久久久久久ktv | 亚洲视频欧美在线| 9色在线视频网站| 在线看片一区| 日韩免费视频一区二区| 久久久国产精华液999999| 欧美日韩精品在线一区| 日韩免费福利电影在线观看| 老司机激情视频| 国产精品美女在线观看直播| 欧洲中文字幕精品| 少妇熟女一区二区| 国产精品99久久久久久董美香| 国产精品美女视频| 快播亚洲色图| aa视频在线观看| 老司机免费视频一区二区 | 超碰在线97免费| 久久网站免费观看| 亚洲国产毛片完整版| 九义人在线观看完整免费版电视剧| 亚洲高清三级视频| 国产伦精品免费视频| 91蝌蚪精品视频| 亚洲一区在线电影| 欧美激情麻豆| 久久99蜜桃综合影院免费观看| 欧日韩精品视频| 一区二区三区在线观看动漫| 中文字幕高清一区| 欧美国产日韩精品免费观看| 91丨porny丨在线| 9人人澡人人爽人人精品| 国产麻豆精品theporn| 久久爱www久久做| 麻豆成人91精品二区三区| 快she精品国产999| 久久这里有精品15一区二区三区| 亚洲一区黄色| 香蕉久久国产| 日韩精品亚洲专区| 久久99热这里只有精品| 国产综合色视频| 国产91精品在线观看| 成人一二三区视频| 91美女片黄在线观看| 中文久久乱码一区二区| 亚洲三级免费观看| 亚洲成av人在线观看| 色悠悠久久综合| 欧美日韩精品福利| 欧美精品一区二区高清在线观看| 日韩av在线导航| 中文字幕视频一区二区在线有码 | 中文字幕一区二区在线观看| 国产精品不卡在线| 亚洲国产精品一区二区尤物区| 五月天一区二区| 欧美综合久久久| 日韩精品资源二区在线| 日韩精品丝袜在线| 久久久av免费| 55夜色66夜色国产精品视频| 国产一区二区区别| 97久久综合区小说区图片区| 美女视频亚洲色图| 水蜜桃久久夜色精品一区| 欧美午夜国产| 麻豆精品久久久| 99久久精品国产导航| 中文字幕日韩av资源站| 欧美视频在线免费看| 欧美日韩一级大片网址| 精品国产污网站| 最近2019中文字幕在线高清| 久久欧美在线电影| 91在线高清免费观看| 日本精品一区| 人妻久久久一区二区三区| 99re6在线视频| 暖暖视频在线免费观看| 久久一卡二卡| 日韩精品中文字幕吗一区二区| 日韩欧美精品| 青青草视频一区| 国产视频在线观看一区二区三区| 亚洲二区视频在线| 精品剧情在线观看| 美女福利精品视频| 亚洲影影院av| 日本一道在线观看| 国产小黄视频| 欧洲美女少妇精品| 欧美日韩免费电影| 99久久久久国产精品| 久久国产乱子精品免费女| 国产日产亚洲精品系列| 情趣网站视频在线观看| 最新97超碰在线| 国产91欧美| 国产精品久久久久久久免费观看 | 国产成人免费视频网站高清观看视频| 欧美性高跟鞋xxxxhd| 国产亚洲一区二区三区在线播放| 久久久久久久有限公司| 久久天天东北熟女毛茸茸| 三级在线免费看| 色综合久久综合中文综合网| 国产精品另类一区| 美女网站色精品尤物极品姐弟| 久久99国产成人小视频| 亚洲免费影院| 久久久电影一区二区三区| 日韩欧美黄色动漫| 国产一区二区三区中文| 日韩女优在线播放| 色狠狠久久av五月综合| 成人免费视频77777| 国产欧美黑人| 91成人福利| 一本一本久久| 国产精品污网站| 日韩区在线观看| 91国内在线视频| 亚洲成人精品电影在线观看| 高清一级毛片视频| 末成年女av片一区二区下载| 禁断一区二区三区在线| 精品一二三四区| 亚洲mv在线观看| 在线观看久久av| 成人av资源| 久久99999| 国产精品—色呦呦| 激情五月色综合国产精品| 国产一区二区按摩在线观看| 欧美日韩色婷婷| 理论片在线不卡免费观看| 国产91精品入口17c| 手机看片福利盒子久久| 影院在线观看全集免费观看| 亚洲人挤奶视频| 国产精品资源网| av丝袜天堂网| 麻豆影视在线观看_| 91精品短视频| 免费观看成人av| 亚洲电影第三页| 久久亚洲精品中文字幕冲田杏梨| 久久精品人人做人人爽电影| caoporn超碰国产公开| 三级成人黄色影院| 一区视频在线看| 亚洲欧美日韩系列| 亚洲色图美腿丝袜| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 成人免费观看在线观看| 久久视频在线| 久久久久久99精品| 日韩精品极品视频| 国产精品一区二| 交视频在线观看国产| 久久国内精品| 蜜臀久久99精品久久久画质超高清 | 激情婷婷综合网| 999精品网| 国模大胆一区二区三区| 亚洲天堂成人在线观看| 久久麻豆一区二区| 亚洲三级色网| 亚洲国产欧美在线| 欧美激情在线观看| 久操手机在线视频| 欧美性受ⅹ╳╳╳黑人a性爽| 亚洲成人免费| 亚洲主播在线播放| 91精品国产电影| 国产成人精品无码播放| 97久久香蕉国产线看观看| 久久久久久亚洲精品杨幂换脸| 一本久久a久久免费精品不卡| 国产成人av网| 97福利电影| 国产美女撒尿一区二区| 久久久综合精品| 久久精品国产欧美亚洲人人爽|