端側(cè)設(shè)備AI代理優(yōu)化框架問世,領(lǐng)域內(nèi)準(zhǔn)確率可達(dá)97%
文章由NEXA AI團(tuán)隊(duì)聯(lián)合MIT-IBM Watson AI Lab一起開發(fā)。一作Wei Chen(陳偉)是NEXA AI聯(lián)合創(chuàng)始人,CEO兼首席科學(xué)家,斯坦福大學(xué)博士,擁有豐富的人工智能研究經(jīng)驗(yàn)。共同一作Zhiyuan Li(李志遠(yuǎn))是NEXA AI聯(lián)合創(chuàng)始人兼CTO,斯坦福大學(xué)校友,并在Google和Amazon Lab126實(shí)驗(yàn)室擁有多年端側(cè)AI的一線研發(fā)經(jīng)驗(yàn)。另外兩位共同一作分別來自 MIT 和 IBM 的Zhen Guo和Yikang Shen。
AI 代理得越來越重要,能夠?qū)崿F(xiàn)自主決策和解決問題。為了有效運(yùn)作,這些代理需要一個(gè)確定最佳行動方案的規(guī)劃過程,然后執(zhí)行計(jì)劃的行動。
在本文中,我們提出了一種高效的設(shè)備端計(jì)劃-行動框架,將計(jì)劃和行動執(zhí)行分為兩個(gè)組件:一個(gè)優(yōu)化用于邊緣設(shè)備的計(jì)劃代理,或稱為 Octo-planner,以及一個(gè)使用 Octopus 模型執(zhí)行函數(shù)的行動代理。Octo-planner 首先通過將任務(wù)分解為一系列子步驟來響應(yīng)用戶查詢,然后由 Octopus 行動代理執(zhí)行這些子步驟。為了優(yōu)化資源受限設(shè)備上的性能,我們采用模型微調(diào)而不是上下文學(xué)習(xí),減少計(jì)算成本和能耗,同時(shí)提高響應(yīng)時(shí)間。
我們的方法包括使用 GPT-4 生成基于可用函數(shù)的多樣化規(guī)劃查詢和響應(yīng),并進(jìn)行后續(xù)驗(yàn)證以確保數(shù)據(jù)質(zhì)量。我們在精心整理的數(shù)據(jù)集上微調(diào) Phi-3 Mini 模型,在域內(nèi)測試環(huán)境中實(shí)現(xiàn)了 97% 的成功率。
為了解決多域規(guī)劃挑戰(zhàn),我們開發(fā)了一種多 LoRA 訓(xùn)練方法,將在不同函數(shù)子集上訓(xùn)練的 LoRA 權(quán)重合并。此方法在保持資源受限設(shè)備上的計(jì)算效率的同時(shí),靈活處理復(fù)雜的多域查詢。

- Paper:https://arxiv.org/pdf/2406.18082
- Demo:https://www.nexa4ai.com/octo-planner#video
- Model Page: https://huggingface.co/NexaAIDev/octopus-planning
1 介紹

人工智能(AI)代理通過實(shí)現(xiàn)自主決策和提高操作效率顯著改變了各個(gè)行業(yè)。這些代理依賴于一個(gè)關(guān)鍵的規(guī)劃過程,該過程包括確定最佳行動方案,執(zhí)行計(jì)劃的行動,以及總結(jié)結(jié)果。大型語言模型(LLM)如 Gemini-Pro 和 GPT-4 在這一領(lǐng)域顯示出潛力。
雖然這些模型在執(zhí)行復(fù)雜的規(guī)劃任務(wù)時(shí)面臨挑戰(zhàn),難以達(dá)到與人類表現(xiàn)相當(dāng)?shù)乃剑鼈冊谔幚砗唵稳蝿?wù)方面仍然有效,從而促進(jìn)實(shí)際應(yīng)用。一個(gè)這樣的應(yīng)用是來自 MultiOn、Simular AI 和 Adept AI 等公司的 AI 助手工具,它們利用 LLM 的能力在各個(gè)領(lǐng)域提供智能助手。
此外,消費(fèi)者導(dǎo)向的 AI 硬件產(chǎn)品,如 Rabbit R1、Humane AI Pin 和 Limitless Pendant,將 LLM 集成到用戶友好的設(shè)備中,使智能助手更易于訪問,并推動顯著的吸引力。AI 代理的成功取決于基礎(chǔ) LLM 的性能。使用預(yù)訓(xùn)練模型而未在任務(wù)示范上進(jìn)行微調(diào)的代理,其成功率相對較低,從桌面應(yīng)用的 12% 到移動應(yīng)用的 46% 不等,而利用微調(diào)模型的代理在類似于其訓(xùn)練數(shù)據(jù)的任務(wù)上可實(shí)現(xiàn)高達(dá) 80% 的成功率。
然而,使用 LLM 的 AI 代理由于高計(jì)算需求和基礎(chǔ)設(shè)施費(fèi)用而成本高昂,限制了廣泛采用。缺乏設(shè)備端 AI 代理限制了需要實(shí)時(shí)處理、離線函數(shù)或增強(qiáng)隱私的應(yīng)用。設(shè)備端 AI 代理提供了包括降低延遲、離線操作、降低成本和改善數(shù)據(jù)安全性等優(yōu)勢。雖然如 Octopus V2 的行動模型在函數(shù)調(diào)用上實(shí)現(xiàn)了 95% 以上的準(zhǔn)確率,但仍缺乏一個(gè)設(shè)備端規(guī)劃模型。通用代理框架使用單模型上下文學(xué)習(xí),需要在每個(gè)提示中包含冗長的函數(shù)描述和規(guī)劃說明。這種方法對于上下文長度有限的設(shè)備端模型而言不切實(shí)際,導(dǎo)致高延遲和邊緣設(shè)備上的電池消耗。
在本文中,我們介紹了 Octo-planner,一個(gè)設(shè)備端規(guī)劃代理,解決了效率、適應(yīng)性和資源約束的關(guān)鍵挑戰(zhàn)。我們的計(jì)劃 - 行動框架將計(jì)劃和行動執(zhí)行分為兩個(gè)組件:一個(gè)優(yōu)化用于邊緣設(shè)備的計(jì)劃代理,或稱為 Octo-planner,以及一個(gè)使用 Octopus 模型執(zhí)行函數(shù)的行動代理。
通過優(yōu)先考慮微調(diào)而不是少樣本提示,我們減少了計(jì)算成本,并最小化了鍵值(KV)緩存需求。我們的方法使用 GPT-4 生成和驗(yàn)證規(guī)劃數(shù)據(jù),然后用于微調(diào) Phi-3 Mini 以進(jìn)行設(shè)備端部署。在域內(nèi)測試中表明,這種微調(diào)提高了規(guī)劃成功率至 97%。為了解決多域規(guī)劃挑戰(zhàn),我們開發(fā)了一種多 LoRA 訓(xùn)練方法,將在不同函數(shù)子集上訓(xùn)練的 LoRA 權(quán)重合并。這種方法在保持資源受限設(shè)備上的計(jì)算效率的同時(shí),靈活處理復(fù)雜的多域查詢。
通過專注于簡單任務(wù)的預(yù)定義函數(shù)和利用微調(diào),我們旨在使 AI 代理在實(shí)際應(yīng)用中更加實(shí)用、可訪問和經(jīng)濟(jì)高效。
這項(xiàng)工作旨在為使 AI 更加可訪問和實(shí)用的持續(xù)努力做出貢獻(xiàn)。通過彌合 AI 代理潛力與邊緣計(jì)算限制之間的差距,我們希望促進(jìn)智能設(shè)備端助手在各個(gè)領(lǐng)域的采用。通過開源我們的方法,我們希望激發(fā)設(shè)備端 AI 的進(jìn)一步創(chuàng)新,擴(kuò)展先進(jìn)規(guī)劃能力的應(yīng)用范圍。
2 相關(guān)工作
計(jì)劃代理:語言模型已成為計(jì)劃代理系統(tǒng)中的關(guān)鍵。OpenAI 的助手 API 等專有模型在基于用戶查詢和可用函數(shù)生成策略方面表現(xiàn)出色。最近的進(jìn)展進(jìn)一步擴(kuò)展了語言模型在計(jì)劃中的能力。ReAct 框架將計(jì)劃和行動整合在有限的動作空間中,而阿里巴巴集團(tuán)的研究強(qiáng)調(diào)了單獨(dú)的計(jì)劃和行動模型在復(fù)雜任務(wù)中的有效性。在機(jī)器人技術(shù)中,語言模型也越來越多地應(yīng)用于任務(wù)級別的計(jì)劃。值得注意的例子包括 SayCan,它使用 LLM 將高層任務(wù)分解為具體的子任務(wù),以及視頻語言計(jì)劃(VLP),通過文本到視頻動態(tài)模型增強(qiáng)了長時(shí)間計(jì)劃。語言模型在計(jì)劃系統(tǒng)中的廣泛應(yīng)用,從一般策略到特定的機(jī)器人任務(wù),突顯了其在各種決策過程中日益重要和適應(yīng)性的地位。
微調(diào)替代長上下文:微調(diào)語言模型以內(nèi)部化特定的提示或上下文信息可以減少輸入長度并提高效率。這種方法包括在精心整理的特定任務(wù)數(shù)據(jù)集上訓(xùn)練模型。對于上下文窗口有限的模型,這種技術(shù)尤其有價(jià)值,因?yàn)樗梢栽诓粻奚憫?yīng)質(zhì)量的情況下提高查詢處理效率。微調(diào)的成功在很大程度上取決于使用多樣化、高質(zhì)量的數(shù)據(jù)集,以確保模型可以在各種提示措辭中進(jìn)行概括。如果實(shí)施得當(dāng),微調(diào)可以簡化特定應(yīng)用的交互,解決實(shí)際部署中的上下文長度限制和計(jì)算挑戰(zhàn)。
LoRA 和 Multi-LoRA: 低秩適應(yīng)(LoRA)可以高效地將預(yù)訓(xùn)練語言模型適應(yīng)特定任務(wù)。與微調(diào)不同,微調(diào)更新所有參數(shù),而 LoRA 則凍結(jié)預(yù)訓(xùn)練權(quán)重并在每一層添加可訓(xùn)練的低秩矩陣,顯著減少了可訓(xùn)練參數(shù)和計(jì)算需求。Multi-LoRA 擴(kuò)展了這一概念,使多個(gè)特定任務(wù)的適配器可以訓(xùn)練、組合或在推理時(shí)切換,允許單一基礎(chǔ)模型高效處理各種任務(wù)。在這些方法的基礎(chǔ)上,研究人員開發(fā)了幾種相關(guān)變體,以解決模型適應(yīng)的不同方面:LoRA + 優(yōu)化學(xué)習(xí)率,VeRA 使用隨機(jī)投影,AdaLoRA 實(shí)現(xiàn)了自適應(yīng)秩,DoRA 分解權(quán)重,Delta-LoRA 更新預(yù)訓(xùn)練權(quán)重。這些變體旨在在特定場景下進(jìn)一步提高效率或性能。
3 方法
本節(jié)介紹我們用于設(shè)備端計(jì)劃 - 行動代理的框架。我們首先描述計(jì)劃和行動代理的集成,以實(shí)現(xiàn)高效的問題解決。然后詳細(xì)說明我們用于規(guī)劃代理的數(shù)據(jù)集設(shè)計(jì)和訓(xùn)練過程,包括對廣泛函數(shù)的支持以及附加函數(shù)集的即插即用能力。最后,我們概述了用于評估代理性能的基準(zhǔn)測試。
3.1 計(jì)劃和行動代理框架
我們的計(jì)劃 - 行動方法通過將計(jì)劃和行動執(zhí)行過程分為兩個(gè)組件來區(qū)別于通用代理框架。這種分離提高了模塊化,使每個(gè)組件的專門優(yōu)化成為可能。該框架的操作如下:
計(jì)劃階段:給定用戶查詢 q,我們的計(jì)劃模型 πplan 將任務(wù)分解為一系列子步驟。形式上:{τ1, τ2, ..., τn} - πplan (q;F )
其中 F 是可用函數(shù)描述的集合,τi 是第 i 個(gè)執(zhí)行步驟。πplan 在指令微調(diào)期間內(nèi)部化 F。
行動階段:對于執(zhí)行序列中的每一步,我們采用行動模型 πaction。在步驟 i,給定當(dāng)前狀態(tài)的觀察 Oi,行動模型執(zhí)行:Oi+1 = πaction (τi, Oi),(2)
其中 Oi+1 和 τi+1 傳遞給下一步以繼續(xù)執(zhí)行。這個(gè)迭代過程確保任務(wù)子步驟的連貫進(jìn)展。
對于行動模型,我們使用專為設(shè)備端函數(shù)調(diào)用設(shè)計(jì)的 Octopus 模型。圖 2 展示了我們計(jì)劃 - 行動框架與單模型 LLM 代理的區(qū)別。

圖 2:單 LLM 代理和計(jì)劃 - 行動代理框架的比較。(左)單 LLM 代理:統(tǒng)一模型執(zhí)行任務(wù)規(guī)劃和行動執(zhí)行。(右)計(jì)劃 - 行動代理:專門的計(jì)劃模型將任務(wù)分解為子任務(wù),而單獨(dú)的行動模型依次執(zhí)行每個(gè)子任務(wù)。
我們的框架模塊化設(shè)計(jì)提供了幾個(gè)優(yōu)勢:
- 專業(yè)化:將計(jì)劃和行動執(zhí)行分開,使每個(gè)模型針對其特定角色進(jìn)行優(yōu)化,從而提高復(fù)雜任務(wù)的性能。
- 可擴(kuò)展性:獨(dú)立擴(kuò)展計(jì)劃和行動能力,能高效適應(yīng)不同任務(wù)的復(fù)雜性。
- 可解釋性:顯式分離階段,提高了決策過程的透明度。
- 適應(yīng)性:更容易將領(lǐng)域特定知識或約束整合到任一階段,而無需系統(tǒng)范圍內(nèi)的變更。
3.2 計(jì)劃數(shù)據(jù)集
我們的框架使用 Octopus 模型作為行動模型,只需訓(xùn)練計(jì)劃代理。我們使用以下數(shù)據(jù)集格式微調(diào)計(jì)劃代理:

用于聊天模型預(yù)訓(xùn)練的特殊標(biāo)記如 <|user|> 和 <|assistant|> 是可選的。我們設(shè)置 n 為 1-5,根據(jù)我們的發(fā)現(xiàn),大多數(shù)移動應(yīng)用上的任務(wù)由少于 5 步組成。數(shù)據(jù)集生成和整理過程包括:
1. 數(shù)據(jù)集收集:給定可用函數(shù) F,我們使用大型語言模型(GPT-4)生成由這些函數(shù)回答的多樣化查詢。我們增加模型的溫度設(shè)置以確保查詢多樣性。然后按指定的數(shù)據(jù)集格式生成響應(yīng)。重要的是,在生成過程中使用函數(shù)描述,但在最終數(shù)據(jù)集中不包括它們。相反,計(jì)劃模型在訓(xùn)練期間內(nèi)部化此函數(shù)信息。
2. 數(shù)據(jù)驗(yàn)證:我們使用相同的語言模型作為驗(yàn)證工具來評估查詢 - 響應(yīng)對的正確性。盡管初始生成過程中存在一些錯(cuò)誤,但我們發(fā)現(xiàn)模型有效地將生成的內(nèi)容分類為有效或無效,從而使我們能夠過濾出錯(cuò)誤的輸出并保持?jǐn)?shù)據(jù)集質(zhì)量。
下面顯示了不同子步驟數(shù)量的示例數(shù)據(jù)點(diǎn):

有關(guān)數(shù)據(jù)集收集的可視化,請參見圖 3。示例函數(shù)描述在附錄 7.1 中。

3.3 基準(zhǔn)設(shè)計(jì)
我們的評估依賴于精心構(gòu)建的測試數(shù)據(jù)集。該數(shù)據(jù)集旨在代表現(xiàn)實(shí)世界規(guī)劃的復(fù)雜性,采用多階段方法,結(jié)合自動生成、專家驗(yàn)證和實(shí)證測試。
過程始于使用 GPT-4 自動生成的包含 1000 個(gè)數(shù)據(jù)點(diǎn)的初始數(shù)據(jù)集。這些數(shù)據(jù)點(diǎn)然后經(jīng)歷嚴(yán)格的質(zhì)量保證過程,以確保其完整性和相關(guān)性。質(zhì)量評估標(biāo)準(zhǔn)如下:
- 每個(gè)步驟必須對應(yīng)于現(xiàn)有函數(shù);
- 步驟的順序必須正確。
為了確保評估的可靠性,我們加入了一個(gè)額外的人工驗(yàn)證階段。此階段涉及選擇一個(gè)子集示例進(jìn)行端到端模型執(zhí)行,從而驗(yàn)證結(jié)果的準(zhǔn)確性,并對模型性能進(jìn)行全面評估。
為了評估我們提出的計(jì)劃模型,我們使用 GPT-4 作為 Oracle 來確定生成計(jì)劃的正確性。這個(gè)選擇基于經(jīng)驗(yàn)觀察,表明 GPT-4 在我們的特定用例中表現(xiàn)出高效。
4 實(shí)驗(yàn)設(shè)計(jì)
我們的實(shí)驗(yàn)設(shè)計(jì)評估了 Octo-planner 在設(shè)備端 AI 代理規(guī)劃中的表現(xiàn)。我們的目標(biāo)是確定在資源受限設(shè)備上部署高效、準(zhǔn)確的規(guī)劃模型的最佳配置,同時(shí)保持對新領(lǐng)域和函數(shù)的適應(yīng)性。我們的實(shí)驗(yàn)主要集中在四個(gè)關(guān)鍵領(lǐng)域:
- 全微調(diào)與 LoRA 之間的性能和效率權(quán)衡。
- Multi-LoRA 在同時(shí)處理不同函數(shù)集時(shí)的準(zhǔn)確性。
- 各種基礎(chǔ)模型和規(guī)模的性能比較。
- 數(shù)據(jù)集大小對準(zhǔn)確性的影響,范圍從 100 到 1000 個(gè)訓(xùn)練示例。
我們在精心整理的數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào),使用 Phi-3 Mini 和其他一些替代品作為基礎(chǔ)模型。訓(xùn)練包括全微調(diào)和 LoRA 技術(shù)。對于所有實(shí)驗(yàn),我們將數(shù)據(jù)集大小設(shè)置為可用函數(shù)數(shù)量的 800 倍,并在 NVIDIA A100 GPU 上進(jìn)行微調(diào)。我們在兩種技術(shù)上使用優(yōu)化的超參數(shù):學(xué)習(xí)率為 5×10-6,批量大小為 4,預(yù)熱比例為 0.2,訓(xùn)練 2 個(gè)周期。對于 LoRA,我們將 target_modules 設(shè)置為所有線性。
5 結(jié)果
5.1 全微調(diào)與 LoRA
表 1 展示了我們的計(jì)劃模型在全微調(diào)和 LoRA 方法上的詳細(xì)比較。我們的實(shí)驗(yàn)顯示了這些方法在性能上的顯著差異。全微調(diào)在 98.1% 的準(zhǔn)確率上實(shí)現(xiàn)了最高性能,表現(xiàn)出優(yōu)越的性能。相比之下,LoRA 的性能取決于秩大小。在秩 64 和 alpha 256 下,LoRA 達(dá)到 85.1% 的準(zhǔn)確率,而減少到秩 16 和 alpha 32 時(shí),準(zhǔn)確率降至 72.9%。這些結(jié)果突顯了使用 LoRA 時(shí)模型性能與計(jì)算效率之間的權(quán)衡。盡管全微調(diào)提供了更好的準(zhǔn)確率,LoRA 在資源效率方面提供了更具吸引力的替代方案,性能取決于秩配置。

表 1:全微調(diào)與 LoRA 基準(zhǔn)
5.2 多 LoRA 訓(xùn)練和合并
盡管基于 LoRA 的訓(xùn)練在特定函數(shù)集上有效,現(xiàn)實(shí)世界的應(yīng)用通常需要處理新的或擴(kuò)展的函數(shù)集。為了解決這個(gè)挑戰(zhàn),我們提出將每個(gè)在不同函數(shù)子集上訓(xùn)練的 LoRA 權(quán)重合并到同一個(gè)基礎(chǔ)模型中的方法。這種方法創(chuàng)建了一個(gè)組合模型,結(jié)合了各種函數(shù)集的知識,為資源受限環(huán)境中的復(fù)雜多域查詢提供了可擴(kuò)展的解決方案。
為了評估此方法,我們構(gòu)建了一個(gè)基準(zhǔn)數(shù)據(jù)集,通過隨機(jī)選擇每個(gè) LoRA 領(lǐng)域的函數(shù)并將它們組合成工作流。查詢和計(jì)劃由 GPT-4 生成。例如,在測試兩個(gè)合并的 LoRA 時(shí),查詢可能涉及 Android 函數(shù)、電子商務(wù)函數(shù)或兩者,概率相等。
以下代碼塊顯示了我們的基準(zhǔn)數(shù)據(jù)集中的示例查詢及多 LoRA 合并模型的對應(yīng)推理結(jié)果:

表 2 展示了我們多 LoRA 合并技術(shù)的性能結(jié)果。每個(gè)獨(dú)立的 LoRA 都使用一致的超參數(shù)進(jìn)行訓(xùn)練:秩 64,lora_alpha 256,target_modules 設(shè)置為 “all-linear”。單域 Android 函數(shù)集 LoRA 達(dá)到 85.1% 的準(zhǔn)確率。當(dāng)合并兩個(gè)域(Android 和電子商務(wù))的 LoRA 時(shí),準(zhǔn)確率略降至 82.2%。進(jìn)一步合并的準(zhǔn)確率下降如下:三個(gè)域(增加視頻流)的準(zhǔn)確率為 78.9%,四個(gè)域(增加旅行)的準(zhǔn)確率為 69.7%。這些結(jié)果揭示了隨著我們整合更多函數(shù)集,準(zhǔn)確率逐漸下降的趨勢,尤其是在添加第三個(gè)域后下降更明顯。

表 2:多 LoRA 基準(zhǔn)
5.3 使用不同基礎(chǔ)模型的全微調(diào)
表 3 展示了在全微調(diào)后使用不同基礎(chǔ)模型的基準(zhǔn)準(zhǔn)確率。谷歌 Gemma 2b 實(shí)現(xiàn)了 85.6% 的準(zhǔn)確率,而更大的 Gemma 7b 以 99.7% 的準(zhǔn)確率表現(xiàn)出色。微軟 Phi-3 Mini 也表現(xiàn)強(qiáng)勁,達(dá)到 98.1% 的準(zhǔn)確率。這些結(jié)果表明我們的框架適應(yīng)各種設(shè)備端 LLM,較大的模型通常實(shí)現(xiàn)更高的準(zhǔn)確率。

5.4 使用不同數(shù)據(jù)集規(guī)模的全微調(diào)
我們的默認(rèn)訓(xùn)練數(shù)據(jù)集包含 1000 個(gè)數(shù)據(jù)點(diǎn),均勻分布在 1-5 步序列中(每個(gè) 200 個(gè)),以代表不同任務(wù)的復(fù)雜性。我們研究了數(shù)據(jù)集規(guī)模對模型性能的影響,以優(yōu)化函數(shù)集集成效率并解決合成數(shù)據(jù)生成成本。表 4 展示了不同訓(xùn)練數(shù)據(jù)集規(guī)模的基準(zhǔn)準(zhǔn)確率:
結(jié)果顯示數(shù)據(jù)集規(guī)模與準(zhǔn)確率之間存在明顯的相關(guān)性。完整的 1000 點(diǎn)數(shù)據(jù)集達(dá)到 98.1% 的準(zhǔn)確率,而減少到 500 個(gè)數(shù)據(jù)點(diǎn)的準(zhǔn)確率下降至 92.5%。進(jìn)一步減少到 250 和 100 個(gè)數(shù)據(jù)點(diǎn),準(zhǔn)確率分別為 85.3% 和 78.1%。這些發(fā)現(xiàn)表明,為了達(dá)到最佳性能,建議使用超過 1000 個(gè)數(shù)據(jù)點(diǎn)的訓(xùn)練數(shù)據(jù)集。
6 結(jié)論
本文介紹了 Octo-planner,一個(gè)設(shè)計(jì)用于與 Octopus V2 等行動代理協(xié)作的設(shè)備端規(guī)劃代理。
通過分離計(jì)劃和行動執(zhí)行,我們提高了專業(yè)化和適應(yīng)性。我們的方法微調(diào)了 Phi-3 Mini(一種 38 億參數(shù)的 LLM),使其能夠在邊緣設(shè)備上本地運(yùn)行,在域內(nèi)測試中達(dá)到 97% 的成功率。我們減少了計(jì)算需求,提高了延遲和電池壽命,并實(shí)現(xiàn)了多 LoRA 技術(shù),用于在不進(jìn)行完全再訓(xùn)練的情況下擴(kuò)展模型能力。Octo-planner 為解決 AI 部署問題做出了貢獻(xiàn),包括數(shù)據(jù)隱私、延遲和離線函數(shù)。它代表了向?qū)嵱谩?fù)雜的個(gè)人設(shè)備 AI 代理的進(jìn)步。
通過開源我們的模型權(quán)重,我們旨在推動設(shè)備端 AI 的創(chuàng)新,促進(jìn)高效、尊重隱私的應(yīng)用程序的開發(fā),增強(qiáng)日常生活,而不影響性能或安全性。
7. 局限性和未來工作
盡管我們的當(dāng)前模型在特定的手機(jī)使用案例中表現(xiàn)有效,但在更廣泛的適用性方面存在局限性。
與 ReAct 等框架不同,它們基于實(shí)時(shí)反饋在計(jì)劃步驟和執(zhí)行行動之間交替,我們的模型在前進(jìn)行所有計(jì)劃。這種事先計(jì)劃的方法在處理簡單任務(wù)方面效率較高,但在條件可能在執(zhí)行過程中變化的復(fù)雜或不可預(yù)測的場景中可能不那么適應(yīng)。
未來的工作將重點(diǎn)探索基于實(shí)時(shí)觀察的迭代計(jì)劃方法,改進(jìn)對動態(tài)環(huán)境的適應(yīng)性。我們還計(jì)劃研究將我們的計(jì)劃模型與多樣化的行動模型集成,將其能力擴(kuò)展到移動應(yīng)用之外的領(lǐng)域,如物聯(lián)網(wǎng)、機(jī)器人技術(shù)和智能家居系統(tǒng)。這些進(jìn)展將解決當(dāng)前的局限性,擴(kuò)展我們設(shè)備端規(guī)劃模型的多函數(shù)性,彌合高效、本地化 AI 處理與復(fù)雜的現(xiàn)實(shí)世界需求之間的差距。





























