重新定義 SQL,從 Cortex AISQL 談起...
原創(chuàng)近期,關(guān)注到數(shù)據(jù)圈的一則產(chǎn)品動態(tài)。云數(shù)據(jù)平臺巨頭 Snowflake 正式推出 Cortex AISQL 功能,將 SQL 語言與生成式AI深度結(jié)合,徹底改變了數(shù)據(jù)分析師處理非結(jié)構(gòu)化數(shù)據(jù)的方式。這不僅是產(chǎn)品功能的升級,更是數(shù)據(jù)處理范式的一次根本性轉(zhuǎn)變。可以說 Snowflake 用 AI 重新發(fā)明 SQL,開啟多模態(tài)數(shù)據(jù)查詢新時代。本文就從這一產(chǎn)品能力談起,談?wù)勎磥韺?SQL 能力的展望。
1. SQL 顛覆者:Cortex AISQL
1)Cortex AISQL 誕生背景
隨著數(shù)字化轉(zhuǎn)型的深入,企業(yè)面臨的數(shù)據(jù)環(huán)境發(fā)生了根本性變化。傳統(tǒng)的數(shù)據(jù)分析主要針對結(jié)構(gòu)化數(shù)據(jù)——那些整齊排列在表格中的數(shù)字和文本。然而,根據(jù)Gartner的研究,企業(yè)中有價值的信息高達(dá)80%存在于非結(jié)構(gòu)化數(shù)據(jù)中:合同文檔、會議記錄、產(chǎn)品圖片、用戶反饋視頻、社交媒體內(nèi)容等。
? 數(shù)據(jù)處理的“暗物質(zhì)”難題
正如宇宙中暗物質(zhì)占據(jù)大部分質(zhì)量卻難以觀測一樣,非結(jié)構(gòu)化數(shù)據(jù)一直是企業(yè)數(shù)據(jù)價值挖掘的盲區(qū)。傳統(tǒng)方法需要數(shù)據(jù)工程師先將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化格式,或者由數(shù)據(jù)科學(xué)家編寫復(fù)雜的 Python 代碼和機(jī)器學(xué)習(xí)流水線。這個過程既耗時又昂貴,成為數(shù)據(jù)價值釋放的主要瓶頸。
? SQL語言的局限性
SQL作為數(shù)據(jù)分析的通用語言,在過去幾十年中完美服務(wù)于結(jié)構(gòu)化數(shù)據(jù)分析。但當(dāng)面對一段客戶投訴音頻或產(chǎn)品設(shè)計圖紙時,傳統(tǒng)的SQL查詢顯得力不從心。數(shù)據(jù)分析師要么依賴其他團(tuán)隊提供支持,要么被迫學(xué)習(xí)編程技能,嚴(yán)重影響了洞察效率。
Snowflake產(chǎn)品高級副總裁Christian Kleinerman指出:“AISQL的目標(biāo)是讓數(shù)據(jù)分析師及其組織更輕松地使用SQL分析非結(jié)構(gòu)化數(shù)據(jù),消除他們對數(shù)據(jù)工程師和開發(fā)人員的依賴。”
2)Cortex AISQL 產(chǎn)品特點
Cortex AISQL的核心創(chuàng)新在于將AI能力封裝為SQL查詢的“一等公民”,而非外部附加功能。這項服務(wù)構(gòu)建在Snowflake Cortex之上——一個全托管服務(wù),提供使用大語言模型(LLMs)所需的構(gòu)建模塊,而無需管理復(fù)雜的GPU基礎(chǔ)設(shè)施。
? 多模型集成架構(gòu)
Cortex AISQL并非依賴于單一AI模型,而是整合了來自Anthropic、Meta、Mistral和OpenAI等公司的多個大型語言模型。這種多模型架構(gòu)確保了處理不同類型非結(jié)構(gòu)化數(shù)據(jù)時的最優(yōu)效果。
1.png
? AI作為SQL算子
Cortex AISQL 最革命性的設(shè)計是將AI功能作為新的 SQL 算子直接嵌入查詢引擎。這種語法革命使得分析師能夠用熟悉的 SQL 語言直接調(diào)用最先進(jìn)的AI能力,實現(xiàn)對文本、圖像甚至視頻內(nèi)容的智能分析。
2.PNG
3)Cortex AISQL 場景價值
根據(jù)Snowflake官方數(shù)據(jù),AISQL可以根據(jù)不同數(shù)據(jù)集將查詢響應(yīng)時間縮短30%至70%,在進(jìn)行數(shù)據(jù)過濾或連接操作時節(jié)省高達(dá)60%的成本。這一性能提升源于AI驅(qū)動的智能過濾機(jī)制,能夠在昂貴的AI計算前精準(zhǔn)檢索最小必要數(shù)據(jù)集。正是基于上面的能力,AISQL 應(yīng)用場景價值巨大。例如:
- 客戶反饋智能分析,傳統(tǒng)的客戶反饋分析需要人工閱讀大量文本或依賴簡單關(guān)鍵詞匹配。AISQL 使得企業(yè)能夠直接通過SQL查詢對海量客戶評論進(jìn)行情感分析、主題提取和緊急問題識別。例如,電商平臺可以實時監(jiān)控產(chǎn)品評價,自動識別質(zhì)量問題并觸發(fā)補(bǔ)貨或改進(jìn)流程。
- 合同與文檔解析,法律和合規(guī)部門可以利用 AISQL 自動分析大量合同文檔,提取關(guān)鍵條款、到期日期和簽約方信息。保險行業(yè)能夠快速處理索賠文檔,提高理賠效率的同時降低人工錯誤率。
- 多媒體內(nèi)容管理,媒體公司現(xiàn)在可以通過自然語言查詢視頻檔案:“找出所有包含日落場景的山脈鏡頭”。AISQL 能夠理解視頻內(nèi)容的語義信息,而不僅僅是依賴元數(shù)據(jù)標(biāo)簽。這種能力為內(nèi)容重用和版權(quán)管理開辟了新可能性。
- 供應(yīng)鏈風(fēng)險監(jiān)控,制造企業(yè)可以結(jié)合結(jié)構(gòu)化數(shù)據(jù)(庫存水平、交貨時間)和非結(jié)構(gòu)化數(shù)據(jù)(供應(yīng)商新聞、天氣報告),建立全面的供應(yīng)鏈風(fēng)險預(yù)警系統(tǒng)。當(dāng) AI 識別到某供應(yīng)商所在地出現(xiàn)自然災(zāi)害報道時,系統(tǒng)可以自動觸發(fā)備選方案評估。
2. 詳解 Cortex AISQL 能力
1)AISQL 樣例
在 Cortex AISQL 中內(nèi)置了大量的 AI 函數(shù),從下面摘自官網(wǎng)的示例可見,其可與傳統(tǒng) SQL 混合使用,通過標(biāo)準(zhǔn) SQL 來訪問非結(jié)構(gòu)化數(shù)據(jù)。
3.PNG
2)AISQL 算子
下面摘取部分 AI 算子加以說明。
? MAP
AISQL 支持使用 AI_COMPLETE 操作符進(jìn)行簡單的映射或投影操作。用戶可以使用 AI_COMPLETE 通過低級別接口與大語言模型(LLM)轉(zhuǎn)換文本表達(dá)式,并根據(jù)任務(wù)指令為提供的每一行接收文本響應(yīng)。此外,PROMPT對象提供了一個易用的接口,可將圖像或其他多模態(tài)數(shù)據(jù)包含到操作符中。
4.png
? FILTER
AI_FILTER 是一個布爾運(yùn)算符,可用于 SQL WHERE 子句中。例如,用戶可以使用自然語言謂詞來過濾表中的行
5.png
? JOIN
使用 PROMPT 對象,AI_FILTER 可以擴(kuò)展為多個表和列參數(shù),用于SQL JOIN中。例如,用戶可以使用自然語言將多個表連接起來。
6.png
? CLASSIFY
AI_CLASSIFY 操作符根據(jù)自然語言指令,將每一行投影到離散候選集{. . . }中選定的類別。與AI_COMPLETE 類似,每個分類是獨立計算的,支持分布式執(zhí)行。輸出列還可以作為普通分類屬性用于下游 SQL 操作,如 GROUP BY、FILTER或AGG子句。
7.png
? REDUCE
AISQL 支持兩個聚合函數(shù) AI_SUMMARIZE_AGG 和 AI_AGG,它們可以將一列文本值縮減為一個聚合結(jié)果。
8.png
3. 暢想:AISQL 的未來
Cortex AISQL 產(chǎn)品的出現(xiàn),給我耳目一新的感覺。原來高高在上的AI 應(yīng)用變得不再遙不可及,數(shù)據(jù)分析的門檻將進(jìn)一步降低。未來,企業(yè)數(shù)據(jù)分析的最大用戶可能不再是人類分析師,而是AI智能體。這一產(chǎn)品的創(chuàng)新不僅解決了當(dāng)下非結(jié)構(gòu)化數(shù)據(jù)分析的痛點,更為 AI 原生時代的數(shù)據(jù)交互模式奠定了基礎(chǔ)。在數(shù)據(jù)價值決定競爭力的時代,AISQL 這樣的技術(shù)正在重新定義“數(shù)據(jù)民主化”的含義。當(dāng)每一位業(yè)務(wù)人員都能用自然語言般的 SQL 查詢從多模態(tài)數(shù)據(jù)中獲取洞察時,企業(yè)才能真正實現(xiàn)數(shù)據(jù)驅(qū)動的智能決策。
9.png
上面表格是摘自近期數(shù)智大會上的一張圖,描述了不同數(shù)據(jù)模型與計算方式(關(guān)系、標(biāo)量/全文檢索、向量、圖、模型)在多個維度上差異顯著,各具優(yōu)劣。例如,關(guān)系型計算在準(zhǔn)確度、可解釋性和可控性上表現(xiàn)優(yōu)秀,而向量和模型計算則在處理非結(jié)構(gòu)化數(shù)據(jù)和表達(dá)能力上更勝一籌,但犧牲了可解釋性。這種“多模態(tài)”計算格局構(gòu)成了當(dāng)前數(shù)據(jù)處理的現(xiàn)實。那么未來構(gòu)建一種統(tǒng)一的SQL語句來實現(xiàn)跨多種計算方式的訪問能力,既是明確的趨勢,也面臨本質(zhì)的挑戰(zhàn)。其實現(xiàn)上可能采用對 SQL 語法層的擴(kuò)展,即統(tǒng)一的SQL不會是一種全新的語言,而是現(xiàn)有SQL標(biāo)準(zhǔn)的強(qiáng)大擴(kuò)展。其核心思路是“聲明式抽象” ,即用戶用統(tǒng)一的語法聲明“要做什么”(如查找相似項、發(fā)現(xiàn)關(guān)聯(lián)、提煉摘要),SQL優(yōu)化器與執(zhí)行引擎則自動將其“翻譯”并下推到最合適的底層計算模型(向量索引、圖數(shù)據(jù)庫、大模型)去執(zhí)行。如上面展示的 Snowflake Cortex AISQL 正是這一理念的實踐典范,它通過AI_XXX新“AI運(yùn)算符”,將非結(jié)構(gòu)化數(shù)據(jù)查詢和模型調(diào)用封裝為標(biāo)準(zhǔn)的SQL操作,初步實現(xiàn)了對文本、圖像、音頻、向量計算的統(tǒng)一訪問。此外,未來的統(tǒng)一SQL引擎需要一個能理解關(guān)系、向量、圖等不同數(shù)據(jù)形態(tài)的統(tǒng)一數(shù)據(jù)對象模型,以及一個強(qiáng)大的跨模型代價優(yōu)化器。這個優(yōu)化器能智能決定查詢計劃,例如,是先做向量檢索縮小范圍再進(jìn)行圖關(guān)聯(lián),還是先執(zhí)行模型推理再進(jìn)行關(guān)系過濾,以實現(xiàn)全局最優(yōu)性能。
構(gòu)建一種能夠涵蓋關(guān)系、向量、圖、模型計算的“統(tǒng)一SQL”是未來的必然方向。它更可能以一個智能的、可擴(kuò)展的查詢協(xié)調(diào)層的形態(tài)出現(xiàn),在用戶層面提供簡潔統(tǒng)一的聲明式接口,在系統(tǒng)底層則靈活調(diào)度和組合多種專用計算引擎。這不僅能極大降低開發(fā)復(fù)雜性和學(xué)習(xí)成本,更能釋放跨模型聯(lián)合分析的巨大價值,是實現(xiàn)真正的“數(shù)據(jù)智能”基礎(chǔ)設(shè)施的關(guān)鍵一步。盡管前路挑戰(zhàn)重重,但業(yè)界(如Snowflake、Databricks等)已沿著這個方向邁出了堅實的步伐。






















