国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！原創

發布于 2024-10-8 11:08

瀏覽

0收藏

一、引言

OpenAI發布的草莓o1模型為評估大語言模型（LLMs）在規劃和調度基準上的進展提供了新的機會，但是它的規劃能力到底怎么樣呢？近期，規劃領域泰斗Subbarao Kambhampati教授領銜的論文對其進行了研究，旨在全面評估o1在既定規劃和調度基準上的性能，并展示如何通過將大型推理模型（Large Reasoning Model, LRM）嵌入到帶有可靠驗證器的循環中，為其輸出提供正確性保證并提高性能。

Subbarao Kambhampati一直是經典AI的代表人物，在規劃領域造詣很深。熟悉他的讀者一定知道，Subbarao Kambhampati對大語言模型一直持保守態度。關于Subbarao Kambhampati教授的工作，我們前兩天曾經報道過哦！感興趣的讀者可以參考《啥？！AAAI前主席Subbarao Kambhampati告訴你：大模型不能planning！》

本文評估了兩種大型推理模型（LRM）o1-preview和o1-mini在規劃和調度基準上的能力。結果表明，o1在某些方面優于基于自回歸的大語言模型（LLMs），但推理成本較高，且無法保證生成結果的正確性。通過將o1模型與外部驗證器結合，可以保證組合系統輸出的正確性，同時進一步提高性能。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

二、背景和相關工作

（一）規劃領域

LLM在規劃任務上表現出一定的局限性，即使在簡單的領域也可能失敗。本文關注經典規劃問題，使用PlanBench基準測試，并在Blocksworld和Mystery Blocksworld等領域進行測試。

（二）調度領域

調度問題主要圍繞資源分配，本文在Natural Plan、TravelPlanner和graph coloring等調度基準上評估o1，這些基準涵蓋了旅行規劃、日歷調度和會議規劃等多個方面。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

表1：不同系列的大型語言模型在Blocksworld和Mystery Blocksworld領域的600個實例上的性能，使用了零次提示和一次提示。同類最佳準確率用粗體顯示。

三、從近似檢索到近似推理

（一）o1的架構

o1結合了底層的LLM和類似System 2的能力，可能經過強化學習預訓練和自適應推理過程，使其在本質上與之前的LLM有很大不同。

（二）規劃能力評估

PlanBench測試

在原始600實例PlanBench測試集上，o1-preview在Blocksworld實例中正確回答率高達97.8%，遠超LLM，但在Mystery Blocksworld上性能有所下降。
隨著問題規模增加，性能會快速下降，在110個更難的Blocksworld問題上，o1-preview僅能達到23.63%的準確率。
在識別不可解問題方面，o1雖然有一定能力，但仍存在誤判情況，有時會錯誤地聲稱可解問題不可解，或者為不可解問題提供錯誤的計劃。

擴展到更難的領域

在Sokoban領域，o1-preview和o1-mini分別能正確回答12.7%和10.9%的實例，而Llama3.1 - 405B在這些實例上全部答錯。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

圖1：這些示例是關于Mystery Blocksworld的。Fast Downward是一種與領域無關的規劃器，它能近乎即時地解決所有給定實例，并保證完美的準確性。大語言模型（LLMs）即使在最小的實例上也很困難。測試的兩種大型推理模型（LRMs），o1 - preview和o1 - mini，效果驚人，但這種性能仍然不夠穩健，并且會隨著長度的增加而迅速下降。

（三）調度能力評估

Graph Coloring

o1-mini在原始220個圖著色問題上解決了96%，超過了GPT - 4的16%。在擴展的更難的圖著色測試集上，o1-mini解決了50%，o1-preview解決了64%。

Travel Planning

在TravelPlanner的180個實例驗證集中，o1-preview解決了10%的實例，略高于GPT - 4 - turbo的4.4%，o1-mini解決了1.67%的實例。

Natural Plan

在Natural Plan的三個領域中，o1-mini在日歷調度領域解決了94%的實例，但在旅行規劃和會議規劃領域表現不佳。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

表2：OpenAI的o1系列大型推理模型和Fast Downward（F.D.）在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld領域的600個實例以及Logistics和Randomized Logistics領域的200個實例上的性能和平均耗時

四、準確性/成本權衡和保證

（一）成本比較

LRM的成本顯著高于LLM，o1-preview和o1-mini每100個實例的成本分別為和3.69，而一些LLM每100個實例的成本在到1.80之間。

（二）權衡分析

雖然o1-preview在準確性上可能高于LLM，但它無法提供正確性保證，且成本效益不明確。相比之下，古典規劃器如Fast Downward在成本、時間和保證正確性方面具有優勢，而LLM - Modulo系統可以在較低成本下提供保證的解決方案。

五、LRM - Modulo提升o1并提供保證

（一）方法介紹

本文提出通過外部驗證器增強o1，將其集成到LRM - Modulo系統中，以提高整體性能并提供輸出保證。

（二）實驗結果

在五個最難的測試集上進行測試，結果表明即使迭代次數有限，性能也有顯著提升。例如，在更難的Blocksworld問題上，o1-preview結合系統的準確率達到98.2%，在Sokoban領域從12.7%提升到43.6%。

六、結論

本文評估了o1-preview和o1-mini在規劃和調度基準上的性能。o1在一些方面取得了進展，但在處理長問題和確定問題可解性方面存在不足。同時討論了準確性和效率的權衡，并展示了LRM - Modulo方法可應用于LRM以提高性能和提供保證。未來的評估需要關注這些因素，以保持其意義和相關性。

本文轉載自公眾號AIGC最前線作者：實習小畢?

原文鏈接：??https://mp.weixin.qq.com/s/HjAkw-0SUUH0WccBDgbr_g???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2024-10-8 11:08:18修改

贊

收藏

回復

舉報

回復

相關推薦

AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成規劃任務！

AIGC最前線 ? 4400瀏覽 ? 0回復
剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 4074瀏覽 ? 0回復
OpenAI發布突破性AI模型o1系列，推理能力大幅躍升重塑行業格局

芝士AI吃魚 ? 3903瀏覽 ? 0回復
OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說

51CTO技術棧 ? 4798瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 5340瀏覽 ? 0回復
OpenAI o1很強，也能被玩壞！

PaperAgent ? 3694瀏覽 ? 0回復
OpenAI發布新模型：o1系列模型，更像理科生的模型

大語言模型論文跟蹤 ? 5749瀏覽 ? 0回復
從openAI最新模型GPT-o1再談思維鏈(Cot)技術，大模型該怎么提升其邏輯推理能力？

AI探索時代 ? 9544瀏覽 ? 0回復
使用 OpenAI o1 的五種方法「詳細指南」

51CTO技術棧 ? 7588瀏覽 ? 0回復
國內大模型廠商是如何看待突然的OpenAI o1？跟不跟是個問題！

Syrupup ? 3459瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內容精選 ? 3607瀏覽 ? 0回復
被神化的o1模型，規劃能力到底如何？

大語言模型論文跟蹤 ? 4235瀏覽 ? 0回復
開源社區離Openai o1越來越近~

NLP前沿1 ? 3596瀏覽 ? 0回復
OpenAI o1：用內部思維鏈進行復雜推理

shizhi02 ? 4081瀏覽 ? 0回復
編程能力超o1，像人類一樣操作電腦，開啟Agent新時代！

51CTO技術棧 ? 4001瀏覽 ? 0回復
o1的規劃能力如何？LRM是未來嗎？

探索AGI ? 3250瀏覽 ? 0回復
OpenAI o1 模型到來后，談談提示詞工程的未來

Baihai_IDP ? 3552瀏覽 ? 0回復
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來

小虎哦哦 ? 1.7w瀏覽 ? 0回復
Vision-R1：多模態領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 4113瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-09 09:10:30發布
預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-03 15:46:55發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

從文本到多模態，Embedding 模型選型指南 0回復

上一篇：經典論文ReAct精讀

下一篇： COLM 2024：一種新的深度學習架構——Monotone Deep Boltzmann Machines

社區精華內容

目錄

97成人在线视频| 精品成人私密视频| 高清一区二区三区视频| 黄页网站在线| 日韩理论电影| 日av在线不卡| 欧美亚洲国产成人精品| www久久日com| 一区二区三区久久久| 日韩av电影免费在线| 国产精品传媒| 国产午夜精品一区二区三区| 男人av在线| 国产精品国产a| 在线观看视频黄色| 欧美精品偷拍| 国产欧美久久久久久| 国产一区二区片| 蜜臀国产一区二区三区在线播放| 96sao精品视频在线观看| 九九在线精品| 国产精品无码专区在线观看| 精品国产18久久久久久二百| 亚洲日本成人女熟在线观看| 好了av在线| 精品少妇一区二区| 四虎亚洲精品| 亚洲免费精彩视频| 女人让男人操自己视频在线观看| 欧美精品第一页| 欧美三级电影一区二区三区| 日本精品一级二级| 黄色视屏网站在线免费观看| 欧美性20hd另类| 麻豆传媒视频在线观看| 91精品国产一区二区人妖| av在线下载| 精品不卡在线视频| 亚洲欧美小说色综合小说一区| 亚洲国产97在线精品一区| heyzo在线| 在线观看日韩欧美| 国产精品香蕉| 亚洲综合精品一区二区| 久久福利精品| 波多野结衣天堂| 欧美色播在线播放| 亚洲欧美韩国| 国产精品一二三在线| 日韩电影免费在线| 性刺激的欧美三级视频| 亚洲一级二级三级在线免费观看| 国产精品日韩一区二区免费视频| 久久人人爽人人爽人人片av不| 成人免费观看网址| 日韩成人精品在线| 国产伦精品一区二区三区四区视频_| 国产无一区二区| a√资源在线| 久久久久久久香蕉网| 母乳一区在线观看| 免费羞羞视频| 日韩欧美激情四射| 日韩电影免费网站| 999久久欧美人妻一区二区| 亚洲蜜桃精久久久久久久| 午夜影院在线播放| 成人字幕网zmw| 久久精品水蜜桃av综合天堂| 激情视频在线观看| 国产69精品久久久久9| 三级影片在线观看欧美日韩一区二区| 成人免费性视频| 在线播放一区二区三区| 一区二区免费| 国产又粗又长又爽视频| 欧美精品黑人性xxxx| 亚洲综合中文| 性网站在线免费观看| 久久精品国产69国产精品亚洲| 国产亚洲一级| 69久久夜色| 国产精品久久一区| 亚洲日本一区二区三区| 中文幕av一区二区三区佐山爱| 色乱码一区二区三区熟女 | 精品国产一区二区三区忘忧草| 久久99影视| 一本大道久久a久久综合婷婷| 精品国产av无码一区二区三区| 欧美午夜精品一区二区三区| 日韩www.| 麻豆国产在线播放| 成人av色在线观看| 尤物视频一区二区| 国产一区二区三区四区大秀| 黄色国产网站在线观看| 日韩电影在线观看中文字幕 | 成人av免费| 国产精品嫩草99a| 美女做暖暖视频免费在线观看全部网址91 | 日本a级片电影一区二区| 一区二区国产在线观看| 日韩欧美亚洲天堂| 欧美一区二区三区日韩视频| 99精品国产一区二区三区2021| 国产精品自拍合集| 日韩av在线免播放器| 激情综合色综合久久| 888av在线| 国产精品裸体一区二区三区| 欧美三级视频在线| 韩国精品视频| 日韩精品一线二线三线| 精品视频在线观看日韩| 久久成人免费网| 国产在线观看www| 性一交一乱一伧国产女士spa| 亚洲国产精品久久久久久| 超碰最新在线| yy6080久久伦理一区二区| 日本福利一区二区三区| 欧美高清www午色夜在线视频| 超碰在线亚洲| 男人天堂综合| 亚洲国产欧美不卡在线观看| 亚洲欧洲成视频免费观看| 欧美国产一区二区在线观看| 久久99国内| 日本视频在线| 免费国产黄色网址| 国产中文字幕日韩| 日韩毛片在线观看| 国产亚洲1区2区3区| 在线亚洲激情| 国产精品自拍区| 亚洲不卡系列| 香港伦理在线| 九色视频在线播放| 在线观看av中文| 日韩欧美亚洲一区| 欧美亚洲黄色片| 国产精品影院在线观看| 精品国产污污免费网站入口| 一道本成人在线| 图片区小说区国产精品视频| 99久久精品免费看国产免费软件| 亚洲欧美一区在线| 91综合久久爱com| а√在线中文在线新版 | 日韩深夜影院| 九九热线视频只有这里最精品| av电影在线播放高清免费观看| 国产男小鲜肉同志免费| 日韩无套无码精品| 欧美亚洲国产成人| 亚洲欧美日本国产有色| 成人高清视频观看www| 日本国产高清不卡| 欧美一级淫片播放口| 日韩有码在线电影| 中文字幕在线亚洲| 欧美大片免费久久精品三p| 亚洲国产精品久久久久婷婷884| 亚洲欧洲性图库| 亚洲女性喷水在线观看一区| 日本一区二区三区在线观看| 亚洲免费三区一区二区| 一区二区三区日本| 精品国产乱码久久久久久婷婷| 中文乱码免费一区二区| www国产成人| 亚洲电影在线播放| 日韩精品视频三区| 国产亚洲美女久久| 日本久久久久亚洲中字幕| 国产va免费精品高清在线| 欧美激情日韩图片| 亚洲网址你懂得| 欧美噜噜久久久xxx| 一本色道久久88精品综合| 少妇高潮久久77777| 亚洲国产精品字幕| 日韩在线中文字幕| 精品国偷自产在线视频| 久久久精品国产| 亚洲欧美在线第一页| 久久久久久成人精品| 视频直播国产精品| 日日狠狠久久偷偷四色综合免费| 5566成人精品视频免费| 国产乱肥老妇国产一区二| 成人国产精品一区二区| 国产伦精品一区二区三区四区视频| 51蜜桃传媒精品一区二区| 欧美性受黑人性爽| 免费看成年人视频在线观看 | 久久69精品久久久久久久电影好 | 久久99精品久久久久久水蜜桃| 久久综合一区|

<optgroup id="ryuvw"></optgroup>

<delect id="ryuvw"><strong id="ryuvw"></strong></delect>

<li id="ryuvw"></li>

<dl id="ryuvw"><u id="ryuvw"></u></dl>

<label id="ryuvw"></label>