IdentifyMe：一個具有挑戰性的長文本指代消解基準測試

發布于 2024-11-20 14:48

瀏覽

0收藏

1 引言

共指消解（CR）是文本理解的一個基本任務。盡管LLMs在廣泛的NLP任務上取得了巨大進展，但它們在CR上的表現相對不盡人意，甚至在指稱檢測上也面臨困難。通過廣泛分析，Gan等人（2024）的工作已經確定，在典型的CR設置中，由于基于跨度的輸出格式不適合LLMs，因此低估了LLMs出色的指稱理解能力。他們建議調整CR數據集和任務指標，以支持LLMs的評估。

沿著這些思路，我們創建了IdentifyMe基準測試，用于MCQ格式的指稱消解，這種格式通常用于LLMs的評估。為了構建基準測試，我們使用了來自兩個長文本共指基準測試LitBank和FantasyCoref的注釋。為了使基準測試具有挑戰性，我們限制了它只包括代詞和名詞指稱，并為每種指稱類型應用了一些啟發式方法，以過濾掉容易解決的案例。每個MCQ實例都包含了標記有感興趣指稱的文本，選項包括文本中經常出現的實體和“以上都不是”（NoA）選項。圖1展示了從LitBank派生的IdentifyMe中的一個示例。

我們對閉源和開源模型進行了評估。平均而言，LLMs在代詞指稱上的表現比名詞指稱要差，代詞指稱由于其有限的表面信息而更難識別。對于所有模型來說，“以上都不是”作為正確答案的實例尤其具有挑戰性，開源模型的準確率下降了超過50%。在嵌套指稱的情況下，LLMs往往會在具有重疊指稱的實體之間產生混淆。得分最高的模型GPT-4o在IdentifyMe上獲得了81.9%的準確率，突顯了前沿LLMs在指稱能力方面的強大實力，同時也表明在這一領域仍有很大的改進空間。

2 IdentifyMe基準測試

IdentifyMe是一個基于MCQ的基準測試，給定一個帶有標記指稱的文檔，任務是識別它所指的實體。我們從專注于文學文本的兩個共指數據集LitBank和FantasyCoref中派生了這些指稱。這些數據集提供了長篇上下文（FantasyCoref平均為1700個詞，LitBank為2000個詞），并具有多個實體及其豐富的相互依賴性（例如，Mr. 和 Mrs. Pett），這使得解決指稱變得更加具有挑戰性。雖然LitBank提供了多樣的寫作風格和語言結構，但FantasyCoref包括的實體通常會采取不同的形式（例如，偽裝和變形），或者在其頭銜上發生變化（例如，Prince Rudolph在加冕后被稱為The Emperor），這進一步增加了實體映射的復雜性。

共指注釋將指向同一實體的指稱分組為未標記的簇。然而，為了創建一個以實體為選項的MCQ，我們需要為每個簇分配一個代表性短語。我們使用GPT-4o-mini（見表8）根據它們的提及和頻率為每個實體生成短語。這些注釋經過手動審查，以確保每個實體都有一個獨特的短語。

為了防止混淆，我們丟棄并避免標記那些：（i）包含注釋錯誤的簇（例如，由于簇合并或分裂）；（ii）太小（<3個提及）或難以/模糊標記的簇（例如，像some這樣的實體）；（iii）復數實體，因為它們通常缺乏可以從提及中派生的明確表面形式。

使用標記簇中的提及，從文檔中創建一個MCQ，所有標記的實體都作為選項提供。為了創建一個高質量的基準測試，我們排除了短上下文文檔（<1000個詞）或那些被丟棄的實體占超過50%提及的文檔。

2.1 選擇IdentifyMe的指稱

基于之前利用基于規則的語言模式來執行（Zhou and Su, 2004; Lee et al., 2013）或分析（Haghighi and Klein, 2009; Otmazgin et al., 2023）共指消解的工作，我們提出了一種兩步啟發式方法來識別具有挑戰性的指稱。

步驟1：丟棄簡單指稱。我們應用兩個標準來過濾掉由于句法相似性而可以輕松解決的指稱：

A. 名詞模糊分數計算名詞指稱與相應實體的代表性短語之間的模糊相似度（靈活對待順序和子集擾動）。得分為75%或更高的指稱被丟棄，因為我們期望它們更容易被正確識別。

B. 網絡干擾分數。我們根據性別、數量和活性等屬性對代詞指稱進行分類（LingMess）。附近具有相同類別的代詞指稱（代詞），并且指向同一實體的，可能有助于輕松識別標記指稱。另一方面，那些來自不同類別但同一實體或同一類別但不同實體的指稱可能使其更難識別。我們將標記指稱的網絡干擾分數定義為阻礙識別的相鄰代詞數量減去有助于識別的數量。我們丟棄得分為≤0的指稱。

步驟2：按難度對指稱進行排名。過濾后的指稱從最難到最易進行排名：對于名詞，較低的名詞模糊分數是首選；對于代詞，較高的網絡干擾分數是首選。此外，標記指稱與同一實體的其他指稱之間的距離也表明了難度。我們考慮距離最近的指稱、最近的名詞指稱和最近的類似于代表性短語的指稱作為進一步排名的標準。所有這些單獨的標準結合使用Copeland的方法（Copeland, 1951），通過評估成對勝負來確定最終排名。

2.2 數據集統計

IdentifyMe包括基于上述排名方法選出的1800個最難的問題。這些問題來自159篇文檔（LitBank 64篇，FantasyCoref 95篇）。其中，隨機選取的600個問題用作提示調整和消融實驗的驗證集。所有問題都包含一個“以上都不是”（NoA）選項，以鼓勵模型以更大的確定性做出回應。為了評估模型是否可以選擇NoA作為正確答案，我們從10%的問題中移除了原始的正確實體。數據集在驗證和測試分割中都是跨源數據集和指稱類型（代詞和名詞）平衡的。

2.3 IdentifyMe是否包含難指稱？

我們進行了一項實驗，以評估我們的指稱選擇過程的有效性。我們沒有采用上述方法，而是隨機挑選指稱并評估模型識別它們的能力。Mistral-7B的性能差距為9.5%，而更為穩健的GPT-4o-mini的性能差距為7.2%，這表明IdentifyMe包含了更具挑戰性的指稱。

3 實驗

3.1 模型

在閉源模型中，我們評估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于計算限制，我們將開源模型的評估限制在10B以下的變體：Llama-3.1-8B和Mistral-7B。

3.2 MCQ設置

選定的指稱在原文中用特殊標記括起來。零樣本提示指導模型從給定的實體集合和NoA中檢索并重新解決指稱，并識別它所指的人或事物。

3.3 推理細節

對于開源模型，我們使用regex-based受限解碼來限制答案僅為特定的實體代表性短語。我們還嘗試了鏈式思維（CoT）方法，指導模型在回答問題之前解釋其推理過程。結果表明，使用CoT可以提高模型性能。

3.4 結果

表3展示了LLMs在IdentifyMe測試集上的整體表現，以及按名詞和代詞指稱類型的細分。隨機基線在基準測試中的準確率為8%。盡管所有LLMs都優于隨機基線，但開源模型仍有很大的改進空間，Llama-3.1-8B的準確率僅為53.3%。GPT-4o是表現最好的模型，準確率為81.9%。同時，GPT-4o-mini作為一個經濟實惠的閉源選項，超越了較小的開源模型，但仍落后于GPT-4o和Gemini-1.5-Flash等頂級表現者。

3.5 錯誤分析

比較實體與NoA。表5提供了當正確選項為實體（Ent）與NoA時的準確率分布。此外，我們將錯誤分為三類：（a）真實值是實體而模型選擇了另一個實體（Ent-Ent），（b）真實值是實體但模型預測了NoA（Ent-NoA），以及（c）真實值是NoA但模型選擇了實體（NoA-Ent）。開源模型在NoA子集上的表現極差，導致高NoA-Ent錯誤。在閉源模型中，Gemini-1.5-Flash在NoA MCQs上的表現較差（下降48.3%），并傾向于在選擇NoA時選擇實體（83/120）。有趣的是，GPT-4o和GPT-4o-mini在NoA問題上更具彈性，分別僅下降了9.6%和0.9%。

嵌套指稱。數據集中包含352個嵌套指稱實例，其中一個指稱的范圍與另一個重疊。表6顯示，嵌套指稱的準確率與整體準確率相當。然而，當模型在解決這些指稱時出錯時，約40%的錯誤是因為預測的實體對應于重疊的指稱。

優點與創新

新的評估基準：引入了IdentifyMe，一個以多項選擇題（MCQ）格式呈現的提及解析新基準，適用于評估大型語言模型（LLMs）。
長文本和多樣化提及類型：IdentifyMe包含長文本（平均1700詞）和多種提及類型及其對應的實體，允許對模型性能進行細粒度分析。
排除易識別的提及：使用啟發式方法排除容易識別的提及，創建更具挑戰性的任務。
顯著的性能差距：在IdentifyMe上評估了閉源和開源LLMs，發現最先進的亞10B開放模型與閉源模型之間存在20-30%的性能差距。
高得分模型：最高得分的模型GPT-4o達到了81.9%的準確率，突顯了前沿LLMs的強大指代能力，同時也表明仍有改進空間。
鏈式思維提示：實驗中使用鏈式思維（CoT）方法提高了模型性能，特別是在處理“無答案”選項時。

不足與反思

領域限制：IdentifyMe僅限于文學領域，提及類型覆蓋有限（僅有名詞性和代詞性提及），且實體類型不包括復數實體。
數據集來源：使用的數據集可在線獲取，初步調查顯示LLMs無法重現整個故事的CoNLL注釋，盡管進行了大量處理，但仍有可能存在污染。

關鍵問題及回答

問題1：IdentifyMe基準測試是如何構建的？其獨特之處是什么？

IdentifyMe基準測試是基于多個選擇問題（MCQ）格式構建的，旨在評估大型語言模型（LLMs）在共指消解任務中的表現。其獨特之處包括：

長文本上下文：IdentifyMe使用了LitBank和FantasyCoref兩個長文本共指消解數據集中的注釋，這些數據集提供了平均1700到2000詞的上下文，使得任務更具挑戰性。
多樣化的提及類型：基準測試僅限于代詞性和名詞性提及，并對每種提及類型應用了一些啟發式規則以過濾掉容易解決的案例。
精心設計的MCQ：每個MCQ實例由一段帶有標記提及的文本組成，選擇項包括文本中頻繁出現的實體和“以上都不是”選項。
手動審核：為了確保每個實體的代表短語是獨特的，使用了GPT-4o-mini生成短語，并由人工審核。
排除易解決的案例：通過名詞模糊得分和凈干擾得分篩選出難以解決的提及，并按難度進行排序。

問題2：IdentifyMe基準測試的結果顯示LLMs在哪些方面存在困難？

代詞性提及的消解：LLMs在處理沒有明確表面形式線索的代詞性提及時表現較差，尤其是那些缺乏足夠上下文信息的代詞。
選擇“以上都不是”：當問題要求模型拒絕所有錯誤選項并選擇“以上都不是”時，LLMs的表現尤其糟糕，開源模型在這一子集上的準確率下降超過50%。
嵌套提及：在處理嵌套提及時，LLMs容易混淆重疊的提及。盡管嵌套提及的準確性與整體準確性相當，但模型在解決這些提及時的錯誤中有約40%是因為預測的實體對應于重疊的提及。

問題3：IdentifyMe基準測試對未來的研究和模型改進有何啟示？

改進評估方法：IdentifyMe展示了傳統共指消解評估方法和輸出格式無法充分捕捉LLMs的指代理解能力，提示需要開發更適合LLMs的評估方法。
增強模型訓練：LLMs在處理代詞性提及和嵌套提及時的困難表明，需要在模型訓練中加強對這些復雜指代關系的理解和生成能力。
更多樣化和復雜的基準測試：IdentifyMe的成功表明，設計多樣化和復雜的基準測試可以更好地評估和改進LLMs的性能，特別是在處理長文本和多種提及類型時。

本文轉載自 ??AI論文解讀??，作者：柏企

標簽

LLMs

MCQ

IdentifyMe

已于2024-11-20 16:53:46修改

贊

回復

舉報

回復

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學堂