国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

IdentifyMe:一個具有挑戰性的長文本指代消解基準測試

發布于 2024-11-20 14:48
瀏覽
0收藏

1 引言

共指消解(CR)是文本理解的一個基本任務。盡管LLMs在廣泛的NLP任務上取得了巨大進展,但它們在CR上的表現相對不盡人意,甚至在指稱檢測上也面臨困難。通過廣泛分析,Gan等人(2024)的工作已經確定,在典型的CR設置中,由于基于跨度的輸出格式不適合LLMs,因此低估了LLMs出色的指稱理解能力。他們建議調整CR數據集和任務指標,以支持LLMs的評估。

沿著這些思路,我們創建了IdentifyMe基準測試,用于MCQ格式的指稱消解,這種格式通常用于LLMs的評估。為了構建基準測試,我們使用了來自兩個長文本共指基準測試LitBank和FantasyCoref的注釋。為了使基準測試具有挑戰性,我們限制了它只包括代詞和名詞指稱,并為每種指稱類型應用了一些啟發式方法,以過濾掉容易解決的案例。每個MCQ實例都包含了標記有感興趣指稱的文本,選項包括文本中經常出現的實體和“以上都不是”(NoA)選項。圖1展示了從LitBank派生的IdentifyMe中的一個示例。

我們對閉源和開源模型進行了評估。平均而言,LLMs在代詞指稱上的表現比名詞指稱要差,代詞指稱由于其有限的表面信息而更難識別。對于所有模型來說,“以上都不是”作為正確答案的實例尤其具有挑戰性,開源模型的準確率下降了超過50%。在嵌套指稱的情況下,LLMs往往會在具有重疊指稱的實體之間產生混淆。得分最高的模型GPT-4o在IdentifyMe上獲得了81.9%的準確率,突顯了前沿LLMs在指稱能力方面的強大實力,同時也表明在這一領域仍有很大的改進空間。

2 IdentifyMe基準測試

IdentifyMe是一個基于MCQ的基準測試,給定一個帶有標記指稱的文檔,任務是識別它所指的實體。我們從專注于文學文本的兩個共指數據集LitBank和FantasyCoref中派生了這些指稱。這些數據集提供了長篇上下文(FantasyCoref平均為1700個詞,LitBank為2000個詞),并具有多個實體及其豐富的相互依賴性(例如,Mr. 和 Mrs. Pett),這使得解決指稱變得更加具有挑戰性。雖然LitBank提供了多樣的寫作風格和語言結構,但FantasyCoref包括的實體通常會采取不同的形式(例如,偽裝和變形),或者在其頭銜上發生變化(例如,Prince Rudolph在加冕后被稱為The Emperor),這進一步增加了實體映射的復雜性。

共指注釋將指向同一實體的指稱分組為未標記的簇。然而,為了創建一個以實體為選項的MCQ,我們需要為每個簇分配一個代表性短語。我們使用GPT-4o-mini(見表8)根據它們的提及和頻率為每個實體生成短語。這些注釋經過手動審查,以確保每個實體都有一個獨特的短語。

為了防止混淆,我們丟棄并避免標記那些:(i)包含注釋錯誤的簇(例如,由于簇合并或分裂);(ii)太小(<3個提及)或難以/模糊標記的簇(例如,像some這樣的實體);(iii)復數實體,因為它們通常缺乏可以從提及中派生的明確表面形式。

使用標記簇中的提及,從文檔中創建一個MCQ,所有標記的實體都作為選項提供。為了創建一個高質量的基準測試,我們排除了短上下文文檔(<1000個詞)或那些被丟棄的實體占超過50%提及的文檔。

2.1 選擇IdentifyMe的指稱

基于之前利用基于規則的語言模式來執行(Zhou and Su, 2004; Lee et al., 2013)或分析(Haghighi and Klein, 2009; Otmazgin et al., 2023)共指消解的工作,我們提出了一種兩步啟發式方法來識別具有挑戰性的指稱。

步驟1:丟棄簡單指稱。我們應用兩個標準來過濾掉由于句法相似性而可以輕松解決的指稱:

A. 名詞模糊分數計算名詞指稱與相應實體的代表性短語之間的模糊相似度(靈活對待順序和子集擾動)。得分為75%或更高的指稱被丟棄,因為我們期望它們更容易被正確識別。

B. 網絡干擾分數。我們根據性別、數量和活性等屬性對代詞指稱進行分類(LingMess)。附近具有相同類別的代詞指稱(代詞),并且指向同一實體的,可能有助于輕松識別標記指稱。另一方面,那些來自不同類別但同一實體或同一類別但不同實體的指稱可能使其更難識別。我們將標記指稱的網絡干擾分數定義為阻礙識別的相鄰代詞數量減去有助于識別的數量。我們丟棄得分為≤0的指稱。

步驟2:按難度對指稱進行排名。過濾后的指稱從最難到最易進行排名:對于名詞,較低的名詞模糊分數是首選;對于代詞,較高的網絡干擾分數是首選。此外,標記指稱與同一實體的其他指稱之間的距離也表明了難度。我們考慮距離最近的指稱、最近的名詞指稱和最近的類似于代表性短語的指稱作為進一步排名的標準。所有這些單獨的標準結合使用Copeland的方法(Copeland, 1951),通過評估成對勝負來確定最終排名。

2.2 數據集統計

IdentifyMe包括基于上述排名方法選出的1800個最難的問題。這些問題來自159篇文檔(LitBank 64篇,FantasyCoref 95篇)。其中,隨機選取的600個問題用作提示調整和消融實驗的驗證集。所有問題都包含一個“以上都不是”(NoA)選項,以鼓勵模型以更大的確定性做出回應。為了評估模型是否可以選擇NoA作為正確答案,我們從10%的問題中移除了原始的正確實體。數據集在驗證和測試分割中都是跨源數據集和指稱類型(代詞和名詞)平衡的。

2.3 IdentifyMe是否包含難指稱?

我們進行了一項實驗,以評估我們的指稱選擇過程的有效性。我們沒有采用上述方法,而是隨機挑選指稱并評估模型識別它們的能力。Mistral-7B的性能差距為9.5%,而更為穩健的GPT-4o-mini的性能差距為7.2%,這表明IdentifyMe包含了更具挑戰性的指稱。

3 實驗

3.1 模型

在閉源模型中,我們評估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于計算限制,我們將開源模型的評估限制在10B以下的變體:Llama-3.1-8B和Mistral-7B。

3.2 MCQ設置

選定的指稱在原文中用特殊標記括起來。零樣本提示指導模型從給定的實體集合和NoA中檢索并重新解決指稱,并識別它所指的人或事物。

3.3 推理細節

對于開源模型,我們使用regex-based受限解碼來限制答案僅為特定的實體代表性短語。我們還嘗試了鏈式思維(CoT)方法,指導模型在回答問題之前解釋其推理過程。結果表明,使用CoT可以提高模型性能。

3.4 結果

表3展示了LLMs在IdentifyMe測試集上的整體表現,以及按名詞和代詞指稱類型的細分。隨機基線在基準測試中的準確率為8%。盡管所有LLMs都優于隨機基線,但開源模型仍有很大的改進空間,Llama-3.1-8B的準確率僅為53.3%。GPT-4o是表現最好的模型,準確率為81.9%。同時,GPT-4o-mini作為一個經濟實惠的閉源選項,超越了較小的開源模型,但仍落后于GPT-4o和Gemini-1.5-Flash等頂級表現者。

3.5 錯誤分析

比較實體與NoA。表5提供了當正確選項為實體(Ent)與NoA時的準確率分布。此外,我們將錯誤分為三類:(a)真實值是實體而模型選擇了另一個實體(Ent-Ent),(b)真實值是實體但模型預測了NoA(Ent-NoA),以及(c)真實值是NoA但模型選擇了實體(NoA-Ent)。開源模型在NoA子集上的表現極差,導致高NoA-Ent錯誤。在閉源模型中,Gemini-1.5-Flash在NoA MCQs上的表現較差(下降48.3%),并傾向于在選擇NoA時選擇實體(83/120)。有趣的是,GPT-4o和GPT-4o-mini在NoA問題上更具彈性,分別僅下降了9.6%和0.9%。

嵌套指稱。數據集中包含352個嵌套指稱實例,其中一個指稱的范圍與另一個重疊。表6顯示,嵌套指稱的準確率與整體準確率相當。然而,當模型在解決這些指稱時出錯時,約40%的錯誤是因為預測的實體對應于重疊的指稱。

優點與創新

  1. 新的評估基準:引入了IdentifyMe,一個以多項選擇題(MCQ)格式呈現的提及解析新基準,適用于評估大型語言模型(LLMs)。
  2. 長文本和多樣化提及類型:IdentifyMe包含長文本(平均1700詞)和多種提及類型及其對應的實體,允許對模型性能進行細粒度分析。
  3. 排除易識別的提及:使用啟發式方法排除容易識別的提及,創建更具挑戰性的任務。
  4. 顯著的性能差距:在IdentifyMe上評估了閉源和開源LLMs,發現最先進的亞10B開放模型與閉源模型之間存在20-30%的性能差距。
  5. 高得分模型:最高得分的模型GPT-4o達到了81.9%的準確率,突顯了前沿LLMs的強大指代能力,同時也表明仍有改進空間。
  6. 鏈式思維提示:實驗中使用鏈式思維(CoT)方法提高了模型性能,特別是在處理“無答案”選項時。

不足與反思

  1. 領域限制:IdentifyMe僅限于文學領域,提及類型覆蓋有限(僅有名詞性和代詞性提及),且實體類型不包括復數實體。
  2. 數據集來源:使用的數據集可在線獲取,初步調查顯示LLMs無法重現整個故事的CoNLL注釋,盡管進行了大量處理,但仍有可能存在污染。

關鍵問題及回答

問題1:IdentifyMe基準測試是如何構建的?其獨特之處是什么?

IdentifyMe基準測試是基于多個選擇問題(MCQ)格式構建的,旨在評估大型語言模型(LLMs)在共指消解任務中的表現。其獨特之處包括:

  1. 長文本上下文:IdentifyMe使用了LitBank和FantasyCoref兩個長文本共指消解數據集中的注釋,這些數據集提供了平均1700到2000詞的上下文,使得任務更具挑戰性。
  2. 多樣化的提及類型:基準測試僅限于代詞性和名詞性提及,并對每種提及類型應用了一些啟發式規則以過濾掉容易解決的案例。
  3. 精心設計的MCQ:每個MCQ實例由一段帶有標記提及的文本組成,選擇項包括文本中頻繁出現的實體和“以上都不是”選項。
  4. 手動審核:為了確保每個實體的代表短語是獨特的,使用了GPT-4o-mini生成短語,并由人工審核。
  5. 排除易解決的案例:通過名詞模糊得分和凈干擾得分篩選出難以解決的提及,并按難度進行排序。

問題2:IdentifyMe基準測試的結果顯示LLMs在哪些方面存在困難?

  1. 代詞性提及的消解:LLMs在處理沒有明確表面形式線索的代詞性提及時表現較差,尤其是那些缺乏足夠上下文信息的代詞。
  2. 選擇“以上都不是”:當問題要求模型拒絕所有錯誤選項并選擇“以上都不是”時,LLMs的表現尤其糟糕,開源模型在這一子集上的準確率下降超過50%。
  3. 嵌套提及:在處理嵌套提及時,LLMs容易混淆重疊的提及。盡管嵌套提及的準確性與整體準確性相當,但模型在解決這些提及時的錯誤中有約40%是因為預測的實體對應于重疊的提及。

問題3:IdentifyMe基準測試對未來的研究和模型改進有何啟示?

  1. 改進評估方法:IdentifyMe展示了傳統共指消解評估方法和輸出格式無法充分捕捉LLMs的指代理解能力,提示需要開發更適合LLMs的評估方法。
  2. 增強模型訓練:LLMs在處理代詞性提及和嵌套提及時的困難表明,需要在模型訓練中加強對這些復雜指代關系的理解和生成能力。
  3. 更多樣化和復雜的基準測試:IdentifyMe的成功表明,設計多樣化和復雜的基準測試可以更好地評估和改進LLMs的性能,特別是在處理長文本和多種提及類型時。

本文轉載自 ??AI論文解讀??,作者:柏企

已于2024-11-20 16:53:46修改
收藏
回復
舉報
回復
相關推薦
日韩中文字幕91| 午夜精品一区二区三区电影天堂 | 国产网红主播福利一区二区| 91久久精品在线| 成人三级高清视频在线看| 国产欧美日韩精品在线| 亚洲v欧美v另类v综合v日韩v| 亚洲国产合集| 色偷偷888欧美精品久久久| 69xxxx欧美| 一区二区三区四区激情| 日韩黄色片在线| 免费在线成人| 91视频国产高清| 欧美亚洲色图校园春色| 亚洲视频日韩精品| 最新国产在线拍揄自揄视频| 亚洲成人你懂的| 国产日韩欧美久久| av在线一区二区| 中文字幕一区二区三区最新 | 日本免费黄色小视频| 亚洲夜间福利| 精品一区在线| 亚洲久久久久久久久久| 黄色网址在线播放| 中文字幕制服丝袜一区二区三区| 成人国产在线看| 日本伊人午夜精品| 99在线看视频| 日韩影视在线观看| 欧美激情视频一区二区三区不卡| 欧美与亚洲与日本直播| 日韩精品视频在线| 麻豆成全视频免费观看在线看| 538在线一区二区精品国产| 国产一区精品| 在线观看区一区二| 五月婷婷在线视频| 在线播放中文一区| bestiality新另类大全| 日韩欧美一区中文| а√在线天堂官网| 亚洲久久久久久久久久久| www视频在线观看| 亚洲国产精品一区二区久| 超碰在线资源| 亚洲女同精品视频| 成人在线中文| 欧美成人激情在线| 超碰在线成人| 欧美最新大片在线看| 在线观看av影片| 欧美日韩精品在线视频| 日本中文字幕电影在线观看 | 亚洲巨乳在线观看| 国模大尺度一区二区三区| 亚洲一区尤物| 毛片一区二区三区| 免费在线黄网站| 久久久天堂av| jizz蜜桃视频在线观看| 午夜精品久久久久影视| 无遮挡的视频在线观看| 亚洲精品videossex少妇| 国产一区二区色噜噜| 九色精品免费永久在线| 欧美中文一区| 亚洲sss综合天堂久久| 亚洲国内欧美| 中文字幕中文字幕在线中心一区| 不卡欧美aaaaa| 成视频在线观看免费观看| 色婷婷久久久亚洲一区二区三区| 亚洲一卡二卡三卡四卡无卡网站在线看| 天堂资源在线中文精品| 欧美黄网在线观看| 国产精品亲子乱子伦xxxx裸| 曰本人一级毛片免费完整视频| 色久综合一二码| 热三久草你在线| 欧美高清自拍一区| 68国产成人综合久久精品| 色播五月综合| 国产三级一区二区| 高h视频在线| 久久激情五月丁香伊人| 国产亚洲欧美日韩在线观看一区二区 | 7m精品福利视频导航| 你懂的网址国产 欧美| 亚洲激情一区二区| 国产婷婷色一区二区三区四区| 色播在线视频| 日韩成人在线视频网站| 日韩精品免费一区二区三区竹菊| 国产精品免费一区二区| 不卡免费追剧大全电视剧网站| a视频免费看| 日韩精品一区二区三区四区| 久久伊人精品| 精品欧美国产一区二区三区不卡| 95精品视频在线| 尤物网在线观看| 久久久久久久久久久人体| 99pao成人国产永久免费视频| 欧美韩国日本在线| 8v天堂国产在线一区二区| 日韩欧美中文字幕一区二区三区| 国产在线播放一区二区| 久久伊99综合婷婷久久伊| 午夜视频在线看| 久久久久久久久久久91| 蜜桃久久av一区| 中文在线有码| 久久夜色精品亚洲噜噜国产mv| 国产精品久久久亚洲一区| 免费高清成人| 日韩电影在线观看中文字幕| 97精品视频在线看| 性欧美极品xxxx欧美一区二区| 日韩欧美亚洲另类制服综合在线 | 亚洲人体在线| 麻豆精品蜜桃一区二区三区| 国产精品的网站| 欧美日韩尤物久久| 欧美日韩国产综合视频在线| 亚洲曰韩产成在线| 清纯唯美激情亚洲| 亚洲小视频在线播放| 欧美日韩午夜在线视频| 精品国产123区| 簧片在线免费看| 中文字幕综合一区| 免费久久99精品国产| 在线看的av网站| 国产精品久久久久福利| 久久―日本道色综合久久| 麻豆理论在线观看| 久久久综合香蕉尹人综合网| 亚洲一二三区不卡| 天天久久夜夜| 欧美 日韩精品| 中文字幕日韩欧美精品在线观看| 日本怡春院一区二区| 国产在线高清视频| 国产欧美韩日| 日本高清不卡视频| 欧美 亚欧 日韩视频在线| 国产一级黄色电影| 欧美一区第一页| 国产精品二三区| 136福利精品导航| 先锋影音久久久| 人成在线免费网站| 午夜精品久久久久久久无码| 国产综合第一页| 在线成人小视频| 亚洲九九精品| 色狠狠久久av综合| 国产在线观看精品| 亚洲国产精品一区二区久久恐怖片 | 国产精品va无码一区二区| 日韩国产精品亚洲а∨天堂免| 久久精品一区| 久久五月精品中文字幕| 国产精品三级| 国产经典三级在线| 看av免费毛片手机播放| 欧美老女人性视频| 不卡免费追剧大全电视剧网站| 色8久久人人97超碰香蕉987| 亚洲mmav| 欧美日韩123区| 亚洲日本在线视频观看| 精品999日本久久久影院| 无码人妻精品一区二区蜜桃百度| 精品粉嫩超白一线天av| 亚洲国产精品久久久久秋霞影院 | 国产色婷婷亚洲99精品小说| 91视频亚洲| aaa一级毛片| 91免费欧美精品| 精品视频一区 二区 三区| 日韩电影免费在线观看网站| 欧美天堂视频| 久草在线资源网站| 99re视频在线| 亚洲国产精品电影| 久久精品水蜜桃av综合天堂| 国产a久久精品一区二区三区 | 色老板在线视频| 91美女高潮出水| 精品剧情在线观看| 99综合电影在线视频| 日本国产精品| 福利成人在线观看| 国产制服91一区二区三区制服| 欧美肥婆姓交大片| 好吊成人免视频| 国产老肥熟一区二区三区|