港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力

zhangyannni

發布于 2024-4-2 12:06

瀏覽

0收藏

港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力-AI.x社區

論文題目：

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

論文地址：

??https://arxiv.org/abs/2403.03514??

代碼地址：

??https://github.com/zexuanqiu/CLongEval??

01 研究背景和貢獻

為了使 LLM 能夠支持更復雜和多樣化的應用，越來越多的研究致力于擴展 LLM 能夠處理的上下文窗口。為了評估這些 long context LLM 支持長上下文能力，目前英文領域有幾個數據集被提出（如 LongBench, L-Eval, LooGLE）。

然而，在中文領域，對于 long context LLM 能力評估的研究還有些滯后。目前只有一個雙語基準 LongBench 可用，中文部分僅有平均長度約 13K 個字符的 1000 個測試實例。基于中文領域缺乏高質量評估數據集的現狀，這篇論文提出了一個基準測試集，以準確評估 LLM 在中文領域的長文本上下文處理能力。

港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力-AI.x社區

論文提出了 CLongEval，一個包含了 7 種 NLP 任務、覆蓋 4 個能力維度的中文長文本能力測試集。以確保對模型能力的綜合評估，作者首先對 LLM 處理長文本所需的關鍵能力進行了拆解。

如下圖所示的框架，基于于人類自身解決問題的范式，作者將 LLM 在解決長上下文任務時所用的基礎能力分解為：1）在部分上下文（Partial Context）或者全部上下文（Full Context）中識別和獲取關鍵信息的能力；2）基于獲取的全部信息，以抽取式（Extractive）或者抽象式（Abstractive）推理出答案的能力。

在這些基礎能力的維度上，作者構建了了 CLongEval 基準測試集。該測試集包含了 7 個任務共 7,267 個測試樣本，包括長篇故事問答（Long Story QA）、長對話記憶（Long Conversation Memory）、長篇故事摘要（Long Story Summarization）、新聞標注（Stacked News Labeling）、錯別字檢測（Stacked Typo Detection）、段落檢索（Key-Passage Retrieval）和表格查詢（Table Querying）。

其中，長篇故事問答和長對話記憶均為全新標注的數據。長篇故事摘要由 GPT-4 進行輔助標注。其余 4 個任務由公共數據集重構得來。

由于目前 LLM 支持的文本長度窗口（context window）差異較大，為了確保基準測試集的適用性，CLongEval 按照輸入文本的長度構建了三個子集：small set、medium set 和 large set。small set 主要包括長度在 1K 到 16K 個 token 之間的測試數據，medium set 是 16K 到 50K 個 token 之間，而 large set 包含的數據擴展到 50K 到 100K 個 token。下表展示了數據集的具體統計信息。

港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力-AI.x社區

02 數據集構建

以下是 CLongEval 包含的測試任務。每個任務針對測試一種上文提到的基礎能力。

長篇故事問答: 該任務要求模型根據長篇故事中的部分上下文來回答問題，考察模型能否利用部分上下文信息進行閱讀理解。模型需要在輸入中找到有關的上下文并進行抽象推理來得到正確答案。作者在 153 本中國敘事小說中提取了 200 個不重復的故事，并根據故事長度分配了相應數量的問題。最終共標注了約 1K 個問答對。
長對話記憶：這個任務旨在評估模型的長期記憶能力，考察模型能否利用部分上下文信息進行閱讀理解。該任務的輸入為用戶和伴侶聊天機器人之間連續多天的對話記錄，模型需要準確地回答關于特定日期對話內容相關的問題。數據包含 80 個虛擬用戶和伴侶聊天機器人之間的 140 天對話記錄，和人工標注的約 1K 個問答對。
長篇故事摘要：作為自然語言處理的經典任務，摘要生成需要模型能夠正確理解完整的長上下文并進行信息整合。作者首先將 BOOKSUM 數據集翻譯成了中文，之后使用 GPT-4 輔助將 BOOKSUM 數據集中每個片段的摘要整合成總摘要。該任務包含 1K 個測試樣例。
新聞標注：該測試任務要求模型能對輸入的新聞做正確的分類。目標是評估語言模型能否理解完整的輸入，并進行信息抽取。每個樣例的輸入包含多篇新聞以及對應的索引，輸出是對每篇新聞的類別標簽。該任務包含約 1K 個測試樣例。
錯別字檢測：該任務要求模型識別出長篇輸入中存在的所有拼寫錯誤。目標是評估語言模型能否理解完整的輸入，并進行信息抽取。錯別字構造來自于日常打字常見錯誤類型：同音錯字。錯字的數量和輸入的長度成正比：small set 為 10 個錯字，medium set 為 20 個錯字，large set 為 30 個錯字。該任務包含約 1K 個測試樣例。
段落檢索：該任務是為了考察模型在長上下文中抽取所需信息的能力，尤其是準確返回復雜搜索結果的能力。數據集中每個樣例都是一個被序列化為字符串的 JSON 對象，其中包含多個鍵-段落（key-passage）對。這個任務和常見的鍵-值檢索任務類似，區別在于這里檢索對象是具有實際語義的自然語言文本，而不是隨機生成的 128 位 UUID 字符串，因此更具有挑戰性。該任務包含約 1K 個測試樣例。
表格查詢：該任務是為了考察模型在長上下文中抽取所需信息的能力，尤其是在長上下文中執行復雜查詢的能力。數據集中每個樣例由多個使用 Markdown 格式排列的表格組成；期待模型可以在長上下文中定位到目標表格，并根據查詢條件從該表格中得到輸出。該任務包含約 1K 個測試樣例。