国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力

發布于 2024-4-2 12:06
瀏覽
0收藏

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

論文題目:

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

論文地址:

??https://arxiv.org/abs/2403.03514??

代碼地址:

??https://github.com/zexuanqiu/CLongEval??

01 研究背景和貢獻

為了使 LLM 能夠支持更復雜和多樣化的應用,越來越多的研究致力于擴展 LLM 能夠處理的上下文窗口。為了評估這些 long context LLM 支持長上下文能力,目前英文領域有幾個數據集被提出(如 LongBench, L-Eval, LooGLE)。

然而,在中文領域,對于 long context LLM 能力評估的研究還有些滯后。目前只有一個雙語基準 LongBench 可用,中文部分僅有平均長度約 13K 個字符的 1000 個測試實例。基于中文領域缺乏高質量評估數據集的現狀,這篇論文提出了一個基準測試集,以準確評估 LLM 在中文領域的長文本上下文處理能力。

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

論文提出了 CLongEval,一個包含了 7 種 NLP 任務、覆蓋 4 個能力維度的中文長文本能力測試集。以確保對模型能力的綜合評估,作者首先對 LLM 處理長文本所需的關鍵能力進行了拆解。


如下圖所示的框架,基于于人類自身解決問題的范式,作者將 LLM 在解決長上下文任務時所用的基礎能力分解為:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中識別和獲取關鍵信息的能力;2)基于獲取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。


在這些基礎能力的維度上,作者構建了了 CLongEval 基準測試集。該測試集包含了 7 個任務共 7,267 個測試樣本,包括長篇故事問答(Long Story QA)、長對話記憶(Long Conversation Memory)、長篇故事摘要(Long Story Summarization)、新聞標注(Stacked News Labeling)、錯別字檢測(Stacked Typo Detection)、段落檢索(Key-Passage Retrieval)和表格查詢(Table Querying)。


其中,長篇故事問答和長對話記憶均為全新標注的數據。長篇故事摘要由 GPT-4 進行輔助標注。其余 4 個任務由公共數據集重構得來。


由于目前 LLM 支持的文本長度窗口(context window)差異較大,為了確保基準測試集的適用性,CLongEval 按照輸入文本的長度構建了三個子集:small set、medium set 和 large set。small set 主要包括長度在 1K 到 16K 個 token 之間的測試數據,medium set 是 16K 到 50K 個 token 之間,而 large set 包含的數據擴展到 50K 到 100K 個 token。下表展示了數據集的具體統計信息。

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

02 數據集構建

以下是 CLongEval 包含的測試任務。每個任務針對測試一種上文提到的基礎能力。

  • 長篇故事問答該任務要求模型根據長篇故事中的部分上下文來回答問題,考察模型能否利用部分上下文信息進行閱讀理解。模型需要在輸入中找到有關的上下文并進行抽象推理來得到正確答案。作者在 153 本中國敘事小說中提取了 200 個不重復的故事,并根據故事長度分配了相應數量的問題。最終共標注了約 1K 個問答對。
  • 長對話記憶這個任務旨在評估模型的長期記憶能力,考察模型能否利用部分上下文信息進行閱讀理解。該任務的輸入為用戶和伴侶聊天機器人之間連續多天的對話記錄,模型需要準確地回答關于特定日期對話內容相關的問題。數據包含 80 個虛擬用戶和伴侶聊天機器人之間的 140 天對話記錄,和人工標注的約 1K 個問答對。
  • 長篇故事摘要作為自然語言處理的經典任務,摘要生成需要模型能夠正確理解完整的長上下文并進行信息整合。作者首先將 BOOKSUM 數據集翻譯成了中文,之后使用 GPT-4 輔助將 BOOKSUM 數據集中每個片段的摘要整合成總摘要。該任務包含 1K 個測試樣例。
  • 新聞標注該測試任務要求模型能對輸入的新聞做正確的分類。目標是評估語言模型能否理解完整的輸入,并進行信息抽取。每個樣例的輸入包含多篇新聞以及對應的索引,輸出是對每篇新聞的類別標簽。該任務包含約 1K 個測試樣例。
  • 錯別字檢測該任務要求模型識別出長篇輸入中存在的所有拼寫錯誤。目標是評估語言模型能否理解完整的輸入,并進行信息抽取。錯別字構造來自于日常打字常見錯誤類型:同音錯字。錯字的數量和輸入的長度成正比:small set 為 10 個錯字,medium set 為 20 個錯字,large set 為 30 個錯字。該任務包含約 1K 個測試樣例。
  • 段落檢索該任務是為了考察模型在長上下文中抽取所需信息的能力,尤其是準確返回復雜搜索結果的能力。數據集中每個樣例都是一個被序列化為字符串的 JSON 對象,其中包含多個鍵-段落(key-passage)對。這個任務和常見的鍵-值檢索任務類似,區別在于這里檢索對象是具有實際語義的自然語言文本,而不是隨機生成的 128 位 UUID 字符串,因此更具有挑戰性。該任務包含約 1K 個測試樣例。
  • 表格查詢該任務是為了考察模型在長上下文中抽取所需信息的能力,尤其是在長上下文中執行復雜查詢的能力。數據集中每個樣例由多個使用 Markdown 格式排列的表格組成;期待模型可以在長上下文中定位到目標表格,并根據查詢條件從該表格中得到輸出。該任務包含約 1K 個測試樣例。

03 實驗結果

下表為主實驗結果,展示了 6 個開源模型和 2 個閉源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表現。

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

作者分析了參考答案在上下文中的對應位置對模型性能的影響,結果如下圖所示。作者在需要部分上下文的四個任務上進行實驗,發現在長篇故事問答和長對話記憶這兩個任務中,“Lost in the middle” 這一現象較為明顯。

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

下面的兩張圖展示了 GPT-4-Turbo 與 Moonshot-v1 在新聞標注這個任務中不同位置與不同深度的分類準確率的可視化分析。可以發現,Moonshot-v1 的表現更加穩定。

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

港中文提出CLongEval中文基準測試集,準確評估大模型長上下文能力-AI.x社區

更多實驗結果以及分析請參考原文。


 本文轉自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/EPOSvdieaXfFdOjyWQaMhA??

已于2024-4-2 12:08:34修改
收藏
回復
舉報
回復
相關推薦
日韩视频一区二区三区在线播放| av电影资源| 成人小视频免费观看| 成视频免费在线看| 欧美一区二区播放| 超碰成人福利| 91人成网站www| 日韩精品免费视频人成| 又色又爽又高潮免费视频国产| 精品久久久久久久久久国产| av电影院在线看| 欧美专区在线视频| 麻豆国产91在线播放| 成人av视屏| 日韩成人小视频| 日韩极品一区| 国产黄色片免费在线观看| 欧美视频一区二区三区…| 久久婷婷五月综合色丁香| 444亚洲人体| 国产视频亚洲色图| 午夜小视频在线观看| 57pao精品| 国产一区二区不卡| 国产污视频在线| 欧美成人午夜剧场免费观看| 久久久xxx| 在线看黄的网站| 伊人伊成久久人综合网站| 午夜日韩在线| 最近中文字幕一区二区| 日韩精品中文字幕一区 | 国产传媒久久文化传媒| 亚洲图片123| 欧美极品欧美精品欧美视频| 蜜臀av一区二区| 久久精品国产亚洲a∨麻豆| 久久久久久久久久国产| 国产成人精品一区二区三区四区| 国产福利在线视频| 国产精品综合不卡av| 国产午夜精品一区二区三区视频| 91福利在线免费| 九9re精品视频在线观看re6 | 日本一区精品| 国产日韩欧美一区在线 | 欧美午夜在线视频| www 四虎| 欧美成人午夜激情| 成人精品国产一区二区4080| 男女在线观看视频| 久久一区二区三区欧美亚洲| 色综合久久综合网欧美综合网| 日韩av字幕| 亚洲色图久久久| 久久亚洲私人国产精品va| 国产米奇在线777精品观看| 三区四区电影在线观看| 国产成人免费电影| 欧美日韩在线视频首页| 日韩大片在线观看| 色资源网在线观看| 国产精品久久久久久久久久久久久| 欧美国产精品久久| 大香伊人久久精品一区二区| 人妻精品无码一区二区三区| 久久精品色欧美aⅴ一区二区| 国产乱码精品1区2区3区| 九色porny丨入口在线| 日本一区不卡| 精品久久人人做人人爽| 日精品一区二区| 欧美xxxx少妇| 男女爱爱视频网站| 日韩在线播放av| 国产无一区二区| 日韩在线观看中文字幕| 孩娇小videos精品| 欧美一区二三区| 亚洲动漫第一页| 欧美.日韩.国产.一区.二区| av在线播放网站| 日产国产精品精品a∨| 日韩精品在线观看一区| 国产成人在线免费观看| 国产一区二区三区免费在线| 一菊综合网成人综合网| 国产精品aaaa| 欧美影视一区在线| 久久电影网站中文字幕| 日韩黄色三级| 黄色国产网站| 国产精品青青草| 亚洲国产成人精品女人久久久 | 日韩欧美中文字幕在线观看| 亚洲欧美综合久久久| 日本在线视频观看| 超碰免费在线公开| 精品中文字幕在线2019| 亚洲黄色录像片| 欧美一区二区三区另类| 在线观看中文| 黄色国产一级视频| 国产精品久久久久aaaa九色| 欧美日韩一区国产| 国产成人99久久亚洲综合精品| 亚洲精品一区国产| 亚洲成av人影片在线观看| 欧美久久久久久| 中文字幕日韩av| 尤物视频一区二区| 亚洲免费看av| 日韩欧美在线字幕| 久久只有精品| 播放一区二区| 浪潮av在线| 色综合666| 久久久久久噜噜噜久久久精品| 欧美国产综合一区二区| 午夜精品福利在线| 亚洲成av人片在线| 亚洲精品国产suv| 狠狠综合久久av一区二区老牛| √天堂8资源中文在线| 成人精品小视频| 国产欧美日韩综合精品二区| 亚洲欧美日韩精品久久奇米色影视| 中文一区在线播放| 先锋a资源在线看亚洲| 久久综合给合| 狠狠狠综合7777久夜色撩人| 91免费网站视频| 国产精品黄色av| 亚洲精品动漫100p| 亚洲国产另类av| 男插女免费视频| 久久久久久久久久网| 免费在线观看av| 性视频在线播放| 啊灬啊灬啊灬啊灬高潮在线看| 一级毛片免费在线| 一级二级三级在线观看| 国产免费a∨片在线观看不卡| 国产视频三区| a篇片在线观看网站| 亚洲白拍色综合图区| 国产精品萝li| 激情成人午夜视频| 亚洲色图欧美| 99久久人爽人人添人人澡 | 欧美日韩一区自拍| 亚洲精品成a人ⅴ香蕉片| 国产尤物视频在线| 欧美亚洲日本在线观看| 亚洲高清乱码| 国产日韩在线看| 久久久精品国产亚洲| 欧美一区二视频| 亚洲一区二区美女| 99精品久久99久久久久| 国产欧美在线| av永久不卡| jizz性欧美23| 韩日一区二区| 成人在线观看亚洲| 三级av在线| av网站免费观看| 无码播放一区二区三区| 天天人人精品| 国产精品久久7| 国产精品入口夜色视频大尺度| 一区二区三区天堂av| 91精品国产综合久久精品性色| 一区二区三区日韩在线观看| 91在线码无精品| 国产精品一区专区| 青青草91视频| 三级一区在线视频先锋| 在线电影一区二区| 欧洲激情视频| 欧美日韩导航| 久久影院一区二区三区| 欧美激情视频免费看| 久久国产情侣| 另类中文字幕网| 91精品婷婷国产综合久久竹菊| 97国产精品人人爽人人做| 97超碰在线视| 九九精品调教| 久久精品国产一区二区三| 欧美亚洲禁片免费| 日韩av影视| 黄页视频在线播放| 欧美日韩在线免费播放| 中文一区一区三区免费| 欧美伦理一区二区| 国产精品免费视频一区二区| 91九色在线视频| 91久久久久久久久久久久久| 国产精品igao视频|