復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了

發(fā)布于 2025-1-8 13:24

瀏覽

0收藏

一、引言

在當(dāng)今數(shù)字化時(shí)代，數(shù)據(jù)庫(kù)的應(yīng)用極為廣泛，但傳統(tǒng)的數(shù)據(jù)庫(kù)查詢語(yǔ)言（如 SQL）對(duì)于非技術(shù)人員來(lái)說(shuō)學(xué)習(xí)成本較高。自然語(yǔ)言接口到數(shù)據(jù)庫(kù)（NLIDB）技術(shù)的出現(xiàn)，旨在讓普通用戶也能輕松訪問(wèn)數(shù)據(jù)庫(kù)。過(guò)去幾十年間，研究人員探索了多種方法，其中利用神經(jīng)序列到序列（Seq2seq）模型或大規(guī)模語(yǔ)言模型（LLMs）的方法較為常見(jiàn)，它們通常采用自回歸解碼方式逐一生成 SQL 查詢。

盡管這些方法在翻譯準(zhǔn)確性上取得了一定進(jìn)展，如在 NLIDB 基準(zhǔn)測(cè)試中準(zhǔn)確率超過(guò) 70%，但仍存在明顯缺陷。以常用的 SPIDER 基準(zhǔn)測(cè)試為例，當(dāng)前最先進(jìn)的模型在語(yǔ)法等價(jià)翻譯的測(cè)試集上準(zhǔn)確率僅為 74.0%。問(wèn)題主要體現(xiàn)在兩個(gè)方面：一是輸出多樣性不足，自回歸解碼在生成候選序列時(shí)往往缺乏變化，容易產(chǎn)生重復(fù)結(jié)果。例如，LGESQL 模型使用束搜索時(shí)，其生成的 top - K 候選結(jié)果相似度較高，可能導(dǎo)致最終的錯(cuò)誤翻譯。二是缺乏全局上下文感知能力，由于是逐個(gè)生成輸出標(biāo)記，僅考慮部分上下文，容易陷入局部最優(yōu)，無(wú)法找到正確的翻譯。

為了改進(jìn)現(xiàn)有方法，一些研究進(jìn)行了嘗試。如多任務(wù)生成框架雖在對(duì)話翻譯場(chǎng)景取得一定成果，但仍依賴標(biāo)準(zhǔn)自回歸解碼獲取最終結(jié)果，并非最優(yōu)。還有研究提出新的生成方法，但需要基于一組代表性樣本查詢假設(shè)。在此背景下，METASQL 框架應(yīng)運(yùn)而生，它旨在增強(qiáng) NL2SQL 翻譯中的自回歸解碼過(guò)程，通過(guò)引入控制信號(hào)來(lái)提升 SQL 生成的質(zhì)量。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

二、METASQL 框架概述

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

1. 預(yù)備知識(shí)

1.1 自回歸解碼

這是一種模型逐個(gè)生成輸出序列元素的解碼策略，每個(gè)元素的生成依賴于之前生成的元素。在自回歸模型中，解碼涉及學(xué)習(xí)一個(gè)評(píng)分模型，其基于從左到右的分解方式，目標(biāo)是在給定輸入序列 A 時(shí)找到高分輸出序列 P。但傳統(tǒng)的單向解碼算法（如貪婪搜索和束搜索）在生成高分輸出序列方面效果不佳，因?yàn)榻獯a歷史中的錯(cuò)誤可能會(huì)對(duì)后續(xù)結(jié)果產(chǎn)生負(fù)面影響。

1.2 NL2SQL 模型

主要分為兩類，Seq2seq 模型和基于 LLM 的模型。Seq2seq 模型遵循特定學(xué)習(xí)框架，先將自然語(yǔ)言查詢和數(shù)據(jù)庫(kù)模式聯(lián)合編碼，再通過(guò)自回歸解碼器生成 SQL 程序的分布。其解碼器的學(xué)習(xí)目標(biāo)可以是原始 SQL 標(biāo)記、SQL 語(yǔ)言的中間表示或 SQL 抽象語(yǔ)法樹(shù)等。LLM 作為 NL2SQL 模型時(shí)，在給定自然語(yǔ)言查詢和提示的情況下，可以自動(dòng)回歸生成相應(yīng) SQL 查詢，提示技術(shù)包括零樣本、少樣本提示或上下文學(xué)習(xí)等，提示內(nèi)容可以是文本指令、翻譯示例或推理鏈等。

2. METASQL 主要流程

2.1 語(yǔ)義分解

如圖 2 的第一步，將自然語(yǔ)言查詢的語(yǔ)義解析重新定義為分類問(wèn)題，利用多標(biāo)簽分類器將自然語(yǔ)言語(yǔ)義映射到一組相關(guān)的查詢?cè)獢?shù)據(jù)。這些元數(shù)據(jù)是與底層數(shù)據(jù)庫(kù)相關(guān)的類別標(biāo)簽，能夠捕捉自然語(yǔ)言查詢的上下文信息。例如，對(duì)于“查詢不說(shuō)英語(yǔ)的國(guó)家代碼”這樣的查詢，可能會(huì)選擇“project”和“except”等操作符標(biāo)簽以及表示查詢難度的“400”作為元數(shù)據(jù)。

2.2 元數(shù)據(jù)條件生成（可選）

如圖 2 的第二部分，對(duì)于 Seq2seq 模型，通過(guò)在訓(xùn)練數(shù)據(jù)中添加元數(shù)據(jù)作為前綴語(yǔ)言提示來(lái)增強(qiáng)模型。訓(xùn)練數(shù)據(jù)由自然語(yǔ)言查詢、對(duì)應(yīng)的 SQL 查詢和相關(guān)元數(shù)據(jù)組成，收集方式基于弱監(jiān)督原則。例如，對(duì)于操作符標(biāo)簽類型的元數(shù)據(jù)，直接從 SQL 查詢中獲取；硬度值類型的元數(shù)據(jù)根據(jù) SPIDER 基準(zhǔn)的定義計(jì)算；正確性指示符類型的元數(shù)據(jù)根據(jù)數(shù)據(jù)來(lái)源確定。在推理階段，利用多標(biāo)簽分類器獲取查詢?cè)獢?shù)據(jù)，然后基于這些元數(shù)據(jù)組合操縱翻譯模型生成一組候選 SQL 查詢。例如，對(duì)于上述查詢示例，可能會(huì)基于“where”標(biāo)簽和“200”的評(píng)級(jí)值生成類似下面的候選查詢。

SELECT countrycode 
FROM CountryLanguage 
WHERE language!='English'

2.3 兩階段排序管道

如圖 2 的第三部分，采用兩階段排序流程確定最佳翻譯結(jié)果。第一階段使用雙塔架構(gòu)構(gòu)建粗粒度排序模型，通過(guò)兩個(gè) BERT 類似的雙向文本編碼器和余弦相似度函數(shù)，快速?gòu)拇罅亢蜻x SQL 查詢中篩選出較小的潛在候選集。其訓(xùn)練數(shù)據(jù)由自然語(yǔ)言查詢、SQL 查詢和語(yǔ)義相似度分?jǐn)?shù)組成，通過(guò)比較 SQL 查詢與“黃金”SQL 查詢的條款來(lái)計(jì)算分?jǐn)?shù)。第二階段使用多粒度監(jiān)督信號(hào)構(gòu)建細(xì)粒度排序模型，對(duì)第一階段的結(jié)果進(jìn)一步排序，以找到最匹配的 SQL 查詢。該模型包括上下兩個(gè)編碼器用于捕獲多粒度語(yǔ)義，通過(guò)多種損失函數(shù)（全局、局部和短語(yǔ)損失）計(jì)算匹配分?jǐn)?shù)，并在推理時(shí)綜合考慮各分?jǐn)?shù)對(duì)候選 SQL 查詢進(jìn)行排序。

SELECT countrycode FROM CountryLanguage
EXCEPT SELECT countrycode FROM
CountryLanguage WHERE language='English'

三、METASQL 方法詳述

1. 查詢?cè)獢?shù)據(jù)

1.1 元數(shù)據(jù)設(shè)計(jì)

METASQL 設(shè)計(jì)了三種類型的元數(shù)據(jù)，包括操作符標(biāo)簽、硬度值和正確性指示符。操作符標(biāo)簽對(duì)應(yīng)于單個(gè)邏輯運(yùn)算符，指示 SQL 組件用于翻譯。例如，對(duì)于特定查詢，“project”標(biāo)簽表示選擇操作，“except”標(biāo)簽表示排除操作。硬度值根據(jù) SQL 組件的數(shù)量和類型量化查詢的潛在復(fù)雜性，通過(guò)為每個(gè) SQL 組件分配難度分?jǐn)?shù)并求和得到。正確性指示符用于區(qū)分正確和錯(cuò)誤的查詢，在推理時(shí)通常為真，但在訓(xùn)練時(shí)可變化以幫助模型學(xué)習(xí)。

1.2 基于元數(shù)據(jù)的語(yǔ)義分解

將自然語(yǔ)言到元數(shù)據(jù)的映射視為分類問(wèn)題，利用多標(biāo)簽分類模型實(shí)現(xiàn)。該模型與底層 NL2SQL 翻譯模型共享編碼器，通過(guò)將解碼器替換為分類層來(lái)輸出標(biāo)量值。在推理階段，設(shè)置分類閾值選擇概率較高的元數(shù)據(jù)標(biāo)簽，從而將自然語(yǔ)言查詢的語(yǔ)義分解為對(duì)應(yīng)的元數(shù)據(jù)，有助于發(fā)現(xiàn)更多語(yǔ)義等價(jià)的 SQL 查詢。

2. 元數(shù)據(jù)條件生成

2.1 訓(xùn)練

在模型訓(xùn)練中，將查詢?cè)獢?shù)據(jù)作為前綴添加到自然語(yǔ)言查詢中，遵循傳統(tǒng)的 seq2seq 范式。收集訓(xùn)練數(shù)據(jù)時(shí)，確保每個(gè)樣本包含自然語(yǔ)言查詢、對(duì)應(yīng)的 SQL 查詢和相關(guān)元數(shù)據(jù)。同時(shí)，為了讓模型更好地區(qū)分正確和錯(cuò)誤的目標(biāo)序列，還收集了 SPIDER 基準(zhǔn)訓(xùn)練集中現(xiàn)有翻譯模型的錯(cuò)誤翻譯作為負(fù)樣本，并為其分配“incorrect”的正確性指示符作為元數(shù)據(jù)。模型輸入時(shí)，將元數(shù)據(jù)扁平化為序列并與自然語(yǔ)言查詢連接，例如“correct | rating : 400 | tags : project, except”這樣的形式。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

2.2 條件生成

在推理階段，由于查詢?cè)獢?shù)據(jù)未知，首先使用多標(biāo)簽分類模型獲取初始元數(shù)據(jù)標(biāo)簽。然后，考慮訓(xùn)練數(shù)據(jù)中的組合情況，選擇性地組合這些標(biāo)簽，以基于元數(shù)據(jù)條件生成一組候選 SQL 查詢。這類似于 LLM 中的提示方法，通過(guò)不同的元數(shù)據(jù)條件引導(dǎo)模型生成多樣化的翻譯結(jié)果。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

3. 兩階段排序管道

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

3.1 第一階段排序模型

采用雙塔架構(gòu)，包括 NL 查詢編碼器和 SQL 編碼器以及余弦相似度函數(shù)。通過(guò)在大量自然語(yǔ)言查詢和 SQL 查詢對(duì)上進(jìn)行訓(xùn)練，學(xué)習(xí)如何快速篩選出與給定自然語(yǔ)言查詢語(yǔ)義相關(guān)的候選 SQL 查詢。訓(xùn)練數(shù)據(jù)中的語(yǔ)義相似度分?jǐn)?shù)根據(jù) SQL 查詢與“黃金”SQL 查詢的匹配程度計(jì)算，若完全匹配則為 1，否則根據(jù)條款差異進(jìn)行扣分。

3.2 第二階段排序模型

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

鑒于第一階段模型在精確排序上的局限性，該階段旨在利用多粒度監(jiān)督信號(hào)更準(zhǔn)確地找到最佳 SQL 查詢。模型架構(gòu)包括粗粒度和細(xì)粒度編碼器，通過(guò)引入額外的短語(yǔ)級(jí)語(yǔ)義信息，并采用列表式方法進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中，使用多種損失函數(shù)（全局、局部和短語(yǔ)損失）來(lái)綜合衡量 NL-SQL 對(duì)的匹配程度，以提高排序的準(zhǔn)確性。例如，全局損失衡量句子級(jí)別的跨模態(tài)匹配相似性，局部損失增強(qiáng)細(xì)粒度的跨模態(tài)匹配，短語(yǔ)三元組損失則用于最大化正對(duì)內(nèi)的細(xì)粒度相似性并最小化負(fù)對(duì)內(nèi)的相似性。在推理時(shí)，綜合考慮各部分得分對(duì)候選 SQL 查詢進(jìn)行最終排序。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

四、實(shí)驗(yàn)評(píng)估

1. 實(shí)驗(yàn)設(shè)置

1.1 基準(zhǔn)測(cè)試

在具有挑戰(zhàn)性的 NLIDB 基準(zhǔn)測(cè)試 SPIDER 和 SCIENCEBENCHMARK 上進(jìn)行實(shí)驗(yàn)。SPIDER 是大規(guī)模跨域基準(zhǔn)，包含大量自然語(yǔ)言查詢和 SQL 查詢以及多個(gè)數(shù)據(jù)庫(kù)，其數(shù)據(jù)根據(jù) SQL 難度分為不同類型。由于 SPIDER 測(cè)試集難以獲取，實(shí)驗(yàn)主要關(guān)注驗(yàn)證集，并通過(guò)提交給作者獲取測(cè)試集結(jié)果。SCIENCEBENCHMARK 則是針對(duì)三個(gè)真實(shí)世界科學(xué)數(shù)據(jù)庫(kù)的復(fù)雜基準(zhǔn)，包含領(lǐng)域?qū)＜抑谱鞯母哔|(zhì)量 NL-SQL 對(duì)以及合成數(shù)據(jù)。

1.2 訓(xùn)練設(shè)置

多標(biāo)簽分類模型基于 LGESQL 模型替換頂層為分類層實(shí)現(xiàn)。第一階段排序模型的嵌入層使用預(yù)訓(xùn)練的 STSB-MPNET- BASE-v2 模型初始化，采用 Adam 優(yōu)化器進(jìn)行訓(xùn)練。第二階段排序模型基于 ROBERTA-LARGE，同樣使用 Adam 優(yōu)化器，并根據(jù)學(xué)習(xí)停滯情況調(diào)整學(xué)習(xí)率，同時(shí)配置相關(guān)參數(shù)以生成合適數(shù)量的 SQL 查詢用于訓(xùn)練。

1.3 推理設(shè)置

多標(biāo)簽分類模型的分類閾值設(shè)置為 0，以選擇所有可能的元數(shù)據(jù)標(biāo)簽。第一階段排序模型選擇排名前十的候選 SQL 查詢子集傳遞給第二階段排序模型進(jìn)行最終推理。

1.4 評(píng)估指標(biāo)

采用翻譯準(zhǔn)確率（EM）、執(zhí)行匹配（EX）、翻譯精度（Precision@K）和平均倒數(shù)排名（MRR）等指標(biāo)評(píng)估模型性能。翻譯準(zhǔn)確率判斷生成的 top-1 SQL 查詢是否與“黃金”SQL 匹配；執(zhí)行準(zhǔn)確率通過(guò)在數(shù)據(jù)庫(kù)上執(zhí)行 SQL 查詢并與真實(shí)結(jié)果比較；翻譯精度評(píng)估前 K 個(gè)翻譯結(jié)果中包含“黃金”SQL 查詢的自然語(yǔ)言查詢數(shù)量占比；MRR 則衡量模型將“黃金”SQL 查詢排在前列的能力。

2. 實(shí)驗(yàn)結(jié)果

2.1 整體性能

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

在兩個(gè)基準(zhǔn)測(cè)試上，METASQL 均能有效提升所有模型的性能。對(duì)于 Seq2seq 模型，在 SCIENCEBENCHMARK 上的提升更為顯著。特別是 LGESQL 模型，在應(yīng)用 METASQL 后，在 SCIENCEBENCHMARK 的 SDSS 數(shù)據(jù)庫(kù)上提升了 8.0%，在 SPIDER 驗(yàn)證集和測(cè)試集上分別達(dá)到 77.4%和 72.3%的翻譯準(zhǔn)確率，且執(zhí)行準(zhǔn)確率也有大幅提高。對(duì)于基于 LLM 的模型（如 CHATGPT 和 GPT-4），METASQL 同樣顯著提升了其性能，這得益于 LLM 強(qiáng)大的生成能力以及 METASQL 對(duì)其生成的引導(dǎo)作用。

2.2 不同難度和語(yǔ)句類型的性能分析

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

按 SQL 難度級(jí)別分析，隨著難度增加，所有模型性能下降，但 METASQL 能在“Medium”和“Hard”查詢上顯著提升模型性能，不過(guò)在“Easy”和“Extra Hard”查詢上可能出現(xiàn)不穩(wěn)定情況。對(duì)于“Easy”查詢，可能是由于 METASQL 對(duì)語(yǔ)義等價(jià)查詢的排序?qū)е略u(píng)估失敗；對(duì)于“Extra Hard”查詢，可能是復(fù)雜查詢中多粒度信號(hào)不準(zhǔn)確導(dǎo)致排名錯(cuò)誤。按 SQL 語(yǔ)句類型分析，METASQL 對(duì)涉及 ORDER BY 和 GROUP BY 子句的查詢翻譯提升明顯，這得益于排序過(guò)程；但對(duì)于嵌套類型的復(fù)雜查詢，Seq2seq 模型結(jié)合 METASQL 可能會(huì)出現(xiàn)性能下降。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

2.3 排序管道性能

METASQL 在排序方面表現(xiàn)出色，例如 RESDSQLLARGE + METASQL 達(dá)到 78.8%的翻譯 MRR，LGESQL + METASQL 等在 top-5 檢索結(jié)果中也有較高的翻譯精度。這表明 METASQL 能夠在多數(shù)情況下正確選擇目標(biāo) SQL 查詢，優(yōu)于傳統(tǒng)的自回歸解碼技術(shù)。

2.4 階段性能分析

對(duì) METASQL 各階段性能分析發(fā)現(xiàn)，三個(gè)階段（元數(shù)據(jù)選擇、元數(shù)據(jù)條件生成、排序）整體性能較為穩(wěn)定。其中，元數(shù)據(jù)條件生成階段相對(duì)波動(dòng)較大，這與底層翻譯模型的局限性有關(guān)。但總體而言，METASQL 有效優(yōu)化了各階段性能，促進(jìn)了整體性能的提升。

3. 元數(shù)據(jù)敏感性分析

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

3.1 元數(shù)據(jù)選擇率

通過(guò)降低多標(biāo)簽分類器的分類閾值引入更多“噪聲”元數(shù)據(jù)，發(fā)現(xiàn) METASQL 的性能對(duì)元數(shù)據(jù)質(zhì)量有很強(qiáng)的依賴性。當(dāng) 低于 - 10 時(shí)，性能顯著下降，因?yàn)檫^(guò)多的“噪聲”元數(shù)據(jù)干擾了模型的判斷。

3.2 正確性指示符

實(shí)驗(yàn)表明 METASQL 對(duì)正確性指示符的變化較為敏感，提供錯(cuò)誤的指示符會(huì)導(dǎo)致性能下降，且比不提供指示符的情況更差，說(shuō)明正確的元數(shù)據(jù)對(duì)于模型性能至關(guān)重要。

3.3 硬度值

METASQL 的性能對(duì)硬度值變化相對(duì)穩(wěn)定，這是因?yàn)槎鄻?biāo)簽分類器獲取的硬度值通常與真實(shí)值接近，且模型會(huì)綜合考慮多種元數(shù)據(jù)。同時(shí)，設(shè)置較容易的硬度值往往比困難的硬度值能帶來(lái)更好的結(jié)果。

3.4 操作符標(biāo)簽

METASQL 對(duì)操作符標(biāo)簽類型的元數(shù)據(jù)較為敏感，使用正確的操作符標(biāo)簽?zāi)茱@著提高性能，因?yàn)樗鼮槟Ｐ吞峁┝擞行У纳杉s束，減少了搜索空間。

4. 消融研究

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

通過(guò)在 SPIDER 驗(yàn)證集上對(duì) LGESQL 進(jìn)行消融實(shí)驗(yàn)，發(fā)現(xiàn)去除多標(biāo)簽分類器或第二階段排序模型會(huì)導(dǎo)致性能大幅下降。這表明多標(biāo)簽分類器在獲取相關(guān)元數(shù)據(jù)方面以及第二階段排序模型在精確排序方面都起著關(guān)鍵作用，再次強(qiáng)調(diào)了 METASQL 各組件的重要性。

5. 分析 METASQL

對(duì) METASQL 翻譯錯(cuò)誤進(jìn)行分析，主要存在以下三類問(wèn)題：一是自回歸解碼問(wèn)題，即使有準(zhǔn)確的元數(shù)據(jù)，底層翻譯模型在處理復(fù)雜查詢時(shí)仍可能產(chǎn)生錯(cuò)誤翻譯，如在嵌套查詢中生成錯(cuò)誤的連接路徑。二是元數(shù)據(jù)不匹配問(wèn)題，多標(biāo)簽分類器提取的不準(zhǔn)確元數(shù)據(jù)會(huì)導(dǎo)致翻譯錯(cuò)誤，因此需要更可靠的元數(shù)據(jù)選擇方法。三是排序問(wèn)題，在第二階段排序中，即使“黃金”查詢?cè)诤蜻x集中，也可能無(wú)法排在首位，尤其是涉及連接操作的查詢，這需要在排序模型訓(xùn)練中更好地捕獲數(shù)據(jù)庫(kù)的特定語(yǔ)義。

1.1 自回歸解碼問(wèn)題

# 自然語(yǔ)言查詢：每個(gè)沒(méi)有把貓作為寵物的學(xué)生是什么專業(yè)？
# 以及他們的年齡是多少？


# 黃金 SQL 查詢:
SELECT major, age FROM student
WHERE stuid NOT IN (
SELECT T1.stuid FROM student AS T1
JOIN has pet AS T2 JOIN pets AS T3
WHERE T3.pettype = 'cat')


# 不正確的生成 SQL 查詢:  
SELECT major, age FROM student
WHERE stuid NOT IN (
SELECT has pet.stuid FROM has pet JOIN pets
WHERE pets.pettype = 'cat')

1.2 元數(shù)據(jù)不匹配問(wèn)題

# 自然語(yǔ)言查詢：有多少個(gè)國(guó)家有超過(guò)兩個(gè)制造商？
# Oracle 相關(guān)的元數(shù)據(jù) 200, group, join
# 預(yù)測(cè)元數(shù)據(jù) 350, group, subquery


# 黃金 SQL 查詢:
SELECT count(*) FROM
countries AS T1 JOIN car makers AS T2
GROUP BY T1.countryid HAVING count(*)>2


# 不正確的生成 SQL 查詢:  
SELECT count(*) FROM (
SELECT country FROM car makers
GROUP BY country HAVING count(*)>2)

1.3 排名問(wèn)題

# 自然語(yǔ)言查詢：哪些汽車型號(hào)是在 1980 年之后生產(chǎn)的？


# 黃金 SQL 查詢:
SELECT T1.model FROM model list AS T1
JOIN car names AS T JOIN car data AS T3
WHERE T3.year > 1980


# 排名最高的 SQL 查詢語(yǔ)句
Top-ranked SQL Query:
SELECT T2.model FROM cars data AS T1
JOIN car names AS T2 WHERE T1.year > 1980

五、相關(guān)工作

在 NLIDB 領(lǐng)域，早期研究主要采用基于規(guī)則的方法，通過(guò)手工制作語(yǔ)法將自然語(yǔ)言查詢映射到 SQL 查詢，但這種方法效率較低且靈活性差。隨著深度學(xué)習(xí)的發(fā)展，Seq2seq 模型成為主流方法，但自回歸解碼的本質(zhì)使其在處理復(fù)雜查詢時(shí)面臨挑戰(zhàn)。近年來(lái)，LLMs 在 NL2SQL 任務(wù)中得到應(yīng)用，但仍需要進(jìn)一步優(yōu)化。與這些現(xiàn)有方法不同，METASQL 引入了統(tǒng)一框架，結(jié)合了現(xiàn)有方法的優(yōu)勢(shì)并進(jìn)一步提升了翻譯性能。

六、結(jié)論

本文提出的 METASQL 框架為 NL2SQL 問(wèn)題提供了一種有效的解決方案，通過(guò)引入查詢?cè)獢?shù)據(jù)和學(xué)習(xí)排序算法，顯著提升了現(xiàn)有翻譯模型的性能。實(shí)驗(yàn)結(jié)果充分證明了其有效性。然而，仍有一些方面需要進(jìn)一步研究。例如，探索如何突破現(xiàn)有自回歸解碼范式的限制，開(kāi)發(fā)更精確的多粒度語(yǔ)義標(biāo)注方法，以及整合更多類型的元數(shù)據(jù)等。這些研究方向有望進(jìn)一步提升 METASQL 的性能，推動(dòng) NL2SQL 技術(shù)的發(fā)展，使其在數(shù)據(jù)庫(kù)自然語(yǔ)言接口領(lǐng)域發(fā)揮更大的作用，為實(shí)現(xiàn)更智能、便捷的數(shù)據(jù)庫(kù)交互提供有力支持。

本文轉(zhuǎn)載自 ??AIGC前沿技術(shù)追蹤??，作者：愛(ài)讀論文的吳彥祖????

標(biāo)簽

METASQL

NL2SQL

數(shù)據(jù)庫(kù)

贊

回復(fù)