保姆級教程:將N8N升級為“全模態”神器,看圖、聽音樣樣行!
今天咱們來聊個超酷的功能:如何讓你的 n8n 工作流“長眼睛”和“長耳朵”? ??
很多朋友在用 n8n 搭建 AI 應用時,發現不論怎么折騰,好像只能發文字。想發張圖片讓 AI 分析?或者發段語音讓 AI 聽聽?對不起,不支持。??
別急!今天這篇教程就手把手教你,如何利用 全模態(Multimodal) 大模型,讓你的 n8n 支持文本、圖片、音頻、視頻的上傳與多輪對話!
舉個栗子 ??:
我給 AI 發一張海報圖,問它:“圖里寫了啥?”它立馬告訴我:“N8N 2.0 發布了”是不是很贊?只要掌握了這個方法,音視頻分析也統統不在話下!
廢話不多說,咱們直接上干貨!??
視頻演示
https://www.bilibili.com/video/BV1ynmwBYESL/
1?? 打通“任督二脈”——開啟文件上傳 ??
首先,我們需要一個入口。
在 n8n 中添加 Chat Trigger(聊天觸發器)節點。?? 注意: 默認情況下,這個聊天窗口只有“發送”按鈕,是不支持上傳附件的。
圖片
怎么破?在 Chat Trigger 的設置里,找到 Allow File Uploads(允許上傳文件)選項,把它打開!?
設置好后,你會發現你的聊天窗口多了一個回形針圖標 ??(或者上傳按鈕)。這就意味著,你的通道已經打通了,可以接受圖片、音頻和視頻啦!
圖片
2?? 選擇“最強大腦”——配置 AI Agent ??
即使通道通了,如果你的大模型是個“臉盲”或者“聽不懂”,那也沒用。所以,我們需要一個支持全模態的大模型。
在 n8n 流程中:
- 下一步添加節點: 這里一定要選 AI Agent!
_敲黑板_:千萬別選 Basic LLM Chain,那個通常只支持純文本,不支持多模態操作。??♂?
設置 Model: 在 AI Agent 里,我們需要配置一個 Chat Model(聊天模型)。
3?? 核心秘技——接入 Qwen-Omni (通義千問) ??
我們要選哪個模型呢?這就得用到阿里的百煉平臺了。
- ? DeepSeek:雖然很火,但目前 API 主要側重文本和推理,全模態支持不是它的強項。
- ? Qwen-Omni:這是阿里最新的全模態大模型,能看圖、聽音、看視頻,選它準沒錯!
關鍵操作來了(必看): ???
因為 n8n 原生可能沒有直接的“百煉”節點,或者為了通用性,我們這里使用 OpenAI Chat Model 節點來“偽裝”接入。因為百煉平臺完美兼容 OpenAI 的協議!
操作步驟:
- 添加憑證 (Credentials):
- 去阿里云百煉平臺,注冊并登錄。
- 在“API-KEY管理”里創建一個新的 Key,復制下來。
- 在 n8n 的 OpenAI 憑證里,把這個 Key 填進去。
- 修改 Base URL:
- 在百煉的模型廣場找到 Qwen-Omni,點擊“API參考”。
- 復制那個 Base URL 地址。
- 粘貼到 n8n 憑證設置里的 Base URL 欄目中。
- 連接測試: 點擊 Save/Test,看到綠色小對勾 ? 就說明連接成功!
4?? 實戰演練——見證奇跡的時刻 ?
連接成功后,回到 n8n 的 OpenAI Model 節點:
- 在模型列表(或者手動輸入)里選擇 qwen-omni-turbo (或者日期后綴的最新版,如 12 月份的版本)。
- 關閉雜項: 那些聯網搜索、文件搜索的高級功能這次用不上,統統關掉,我們只測多模態。
測試開始! ??
- 打開聊天窗口。
- 上傳一張包含文字的圖片(比如 n8n 2.0 的海報)。
- 輸入指令:“提取圖片中的文字”。
- 點擊發送!
結果展示:
圖片
大模型迅速識別并回復:“這張圖片顯示的是 n8n 2.0 發布了。”我核對了一下原圖,完全相符! ??
?? 總結
想要實現 n8n 全模態,必須滿足兩個條件,缺一不可:
- 入口支持:Chat Trigger 開啟文件上傳。
- 模型支持:后端必須連接支持全模態的模型(如 Qwen-Omni)。
搞定這兩步,你的 n8n 就不再是只會打字的機器人,而是能看能聽的超級助手了!視頻和音頻的原理是一樣的,大家課后可以自己去試一試。




































