斯坦福開源復(fù)雜推理AI Agent,融合超十種工具
傳統(tǒng)的AI助手通常依賴于單一模型或有限的工具集,難以應(yīng)對(duì)需要多步推理、跨領(lǐng)域知識(shí)融合及高精度數(shù)據(jù)分析的任務(wù)。例如,解決視覺謎題,需要精細(xì)圖像理解和基于文本的混合推理。
為了解決這一難題,斯坦福開源了OctoTools,這是一個(gè)融合了11種不同工具專用于復(fù)雜推理的AI Agent。根據(jù)測(cè)試數(shù)據(jù)顯示,Octotools在多領(lǐng)域的 16 項(xiàng)基準(zhǔn)測(cè)試中,平均準(zhǔn)確率非常高,可以輕松應(yīng)對(duì)數(shù)學(xué)、科學(xué)、醫(yī)學(xué)診斷等復(fù)雜場(chǎng)景任務(wù)。

開源地址:https://github.com/octotools/octotools
工具卡片是OctoTools框架的基礎(chǔ)構(gòu)件,通過標(biāo)準(zhǔn)化封裝的方式,將各種工具的功能和元數(shù)據(jù)整合在一起。這些工具可以是圖像識(shí)別工具、數(shù)學(xué)計(jì)算工具、網(wǎng)絡(luò)搜索工具,特定領(lǐng)域的專家系統(tǒng)等。
每個(gè)工具卡片都包含了工具的基本信息,如輸入輸出格式、使用限制以及最佳實(shí)踐建議。這些元數(shù)據(jù)為規(guī)劃器和執(zhí)行器提供了必要的信息,幫助它們更好地理解和使用這些工具。
例如,圖像字幕生成的工具卡片會(huì)說(shuō)明它需要輸入圖像路徑和一個(gè)描述性提示,輸出則是圖像的描述性字幕。而對(duì)象檢測(cè)工具卡片則會(huì)說(shuō)明它需要輸入圖像路徑和目標(biāo)對(duì)象的標(biāo)簽,輸出則是檢測(cè)到的對(duì)象列表及其置信度。

工具卡片的另一個(gè)重要特點(diǎn)是它們的動(dòng)態(tài)性。在運(yùn)行時(shí),工具卡片可以根據(jù)任務(wù)的具體需求,動(dòng)態(tài)地調(diào)整其行為。例如,如果任務(wù)需要對(duì)圖像進(jìn)行更細(xì)致的分析,工具卡片可以調(diào)用更高級(jí)的圖像處理算法;如果任務(wù)需要快速響應(yīng),工具卡片則可以選擇更高效的算法。
規(guī)劃器是OctoTools框架的“大腦”,負(fù)責(zé)對(duì)用戶查詢進(jìn)行分析,并制定出全局的解決方案。它通過分析查詢的目標(biāo)、所需技能和相關(guān)工具,生成一個(gè)初步的計(jì)劃。這個(gè)計(jì)劃不僅包括了任務(wù)的總體目標(biāo),還詳細(xì)列出了每一步需要完成的子目標(biāo)以及所需的工具。
規(guī)劃器的工作方式類似于人類在解決問題時(shí)的思考過程。它首先對(duì)任務(wù)進(jìn)行宏觀分析,確定任務(wù)的整體目標(biāo)和所需技能。

然后根據(jù)這些信息,選擇合適的工具,并為每一步制定具體的行動(dòng)計(jì)劃。例如,在處理一個(gè)需要圖像理解和數(shù)學(xué)計(jì)算的任務(wù)時(shí),規(guī)劃器會(huì)先使用圖像字幕生成工具來(lái)獲取圖像的描述,然后再使用數(shù)學(xué)計(jì)算工具來(lái)解決問題。這種逐步細(xì)化的過程使得規(guī)劃器能夠更好地應(yīng)對(duì)復(fù)雜的任務(wù),確保每一步都朝著最終目標(biāo)前進(jìn)。
執(zhí)行器相當(dāng)于OctoTools的“四肢”,負(fù)責(zé)將規(guī)劃器生成的行動(dòng)計(jì)劃轉(zhuǎn)化為可執(zhí)行的命令,并運(yùn)行相應(yīng)的工具。執(zhí)行器的工作方式類似于人類在執(zhí)行任務(wù)時(shí)的具體操作過程。會(huì)根據(jù)規(guī)劃器的指令,生成具體的命令,運(yùn)行工具,并將結(jié)果反饋給規(guī)劃器。

執(zhí)行器不僅能夠處理簡(jiǎn)單的命令,還能夠處理復(fù)雜的多步操作。例如,如果規(guī)劃器決定使用對(duì)象檢測(cè)工具,執(zhí)行器會(huì)根據(jù)工具的元數(shù)據(jù),生成具體的命令,運(yùn)行工具,并將結(jié)果反饋給規(guī)劃器。這種分離規(guī)劃和執(zhí)行的設(shè)計(jì),使得系統(tǒng)的錯(cuò)誤率降低,提高了系統(tǒng)的可靠性和可維護(hù)性。
上下文驗(yàn)證器是OctoTools的驗(yàn)證模塊,主要負(fù)責(zé)檢查當(dāng)前的上下文是否已經(jīng)滿足了用戶的要求。會(huì)驗(yàn)證結(jié)果的完整性,檢查是否存在不一致或模糊的地方,并決定是否需要進(jìn)一步的工具調(diào)用。
如果發(fā)現(xiàn)某個(gè)步驟的結(jié)果存在問題,上下文驗(yàn)證器會(huì)要求規(guī)劃器重新評(píng)估任務(wù)的進(jìn)展,并調(diào)整后續(xù)的行動(dòng)計(jì)劃。


































