国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

EMNLP 2025 | CARE:無需外部工具,讓大模型原生檢索增強推理實現上下文高保真

人工智能 新聞
來自 MetaGPT、蒙特利爾大學和 Mila 研究所、麥吉爾大學、耶魯大學等機構的研究團隊發布 CARE 框架,一個新穎的原生檢索增強推理框架,教會 LLM 將推理過程中的上下文事實與模型自身的檢索能力有機結合起來。

近日,來自 MetaGPT、蒙特利爾大學和 Mila 研究所、麥吉爾大學、耶魯大學等機構的研究團隊發布 CARE 框架,一個新穎的原生檢索增強推理框架,教會 LLM 將推理過程中的上下文事實與模型自身的檢索能力有機結合起來。該框架現已全面開源,包括訓練數據集、訓練代碼、模型 checkpoints 和評估代碼,為社區提供一套完整的、可復現工作。

  • 項目主頁:https://foundationagents.github.io/CARE
  • 論文地址:https://arxiv.org/abs/2509.13683
  • 開源代碼:https://github.com/FoundationAgents/CARE
  • 開源模型 & 數據集:

https://huggingface.co/collections/sheryc/care-datasets-emnlp-2025-68be35242afab58f4bed7d97

https://huggingface.co/collections/sheryc/care-checkpoints-emnlp-2025-68be35dbd732816c9d98f258

研究背景

從“外部搜索”到“原生檢索”的轉變

1、現有方法的困境

目前解決上下文保真度問題主要有兩條路:1. 搭建復雜的 RAG 系統,依賴向量數據庫、檢索器等一整套基礎設施;2. 讓模型去調用搜索引擎,但這樣反而忽略了用戶已經提供的寶貴信息。這兩種方法都把檢索當作一個獨立的外部過程,沒有真正融入模型的思考流程。與此同時,目前的LLM有著較強的多任務能力,所以檢索器和理解模型在長上下文閱讀中或許可以被LLM所統一。

2、CARE:讓檢索成為推理的一部分

CARE 的突破在于提出了原生檢索增強推理這一全新范式。簡單來說,就是教會模型在推理過程中利用模型本身的能力自然地引用輸入文本中的關鍵信息。就像學生在答題時會在試卷上劃重點一樣,模型會在思考過程中插入類似“根據文檔第三段提到...”這樣的引用,確保每一步推理都有據可依。

這種方法的優勢顯而易見:不需要額外的檢索系統,不增加推理延遲,部署極其簡單。對于使用 LLM 的項目來說,只需要替換模型權重就能獲得顯著的性能提升。

技術實現:兩階段訓練策略

CARE 采用了精心設計的兩階段訓練流程,確保模型既能學會檢索-推理的格式,又能在各種場景下靈活運用。

第一階段:讓模型學會“引用”

研究團隊首先基于 HotpotQA 數據集構建了訓練數據。通過一個巧妙的數據生成流程,他們將原始的問答數據轉換成包含明確引用的推理鏈。例如,當模型需要回答“約翰的媽媽買的電影票價格合理嗎”時,它會先思考“需要從用戶輸入中抽取約翰的媽媽買票的價格”,再利用自身能力自回歸地引用用戶輸入中出現的原文片段“票價是 15 美元”。之后,它再次思考“需要從用戶輸入中抽取普通票價”,再自回歸地引用“普通場次票價范圍是 10-12 美元”,最后得出結論。

這個階段使用監督學習,讓模型熟悉這種“先查找,再推理”的思考模式。關鍵是使用特殊標記來標識引用內容,讓模型清楚地區分哪些是從原文提取的事實,哪些是自己的推理。

第二階段:強化學習優化檢索質量

然而,僅僅學會格式還不夠,模型需要知道什么時候該檢索,檢索什么內容。第二階段采用強化學習,通過三個精心設計的獎勵信號來引導模型:

準確性獎勵確保最終答案正確,格式獎勵保證輸出規范,研究團隊在檢索獎勵上進行了創新:它鼓勵模型檢索的內容必須真實存在于原文中,不能憑空捏造。這個看似簡單的約束,實際上極大地提升了模型的上下文忠實度。

在此基礎上,為了讓模型能夠適應各種不同長度的輸入輸出,研究團隊引入了課程學習策略,讓模型從簡單的短文本問答逐步過渡到復雜的多跳推理任務。這就像教小孩先學會在一頁紙上找答案,再逐步學會在整本書中尋找線索。

評估效果

為了全面驗證 CARE 框架的有效性,研究團隊在真實世界和反事實(Counterfactual)兩大類問答基準上進行了嚴謹的實驗,并與多種主流方法進行了對比。實驗結果清晰地表明,CARE 在模型上下文保真度和回答準確性方面取得了全面且顯著的提升。

真實世界問答任務:全面超越現有方法

在涵蓋了多領域、長文本、多跳推理等復雜場景的四大主流 QA 基準(MFQA, HotpotQA, 2WikiMQA, MuSiQue)上,CARE 表現出了壓倒性的優勢。

  • 性能顯著提升:實驗數據顯示,以 Llama-3.1-8B 模型為例,搭載了 CARE 框架后的模型平均 F1 分數提升了 15.29%。 這一提升在需要綜合多個信息點進行推理的復雜多跳任務(如 2WikiMQA 和 MuSiQue)上尤為明顯,漲幅分別達到了 29.42% 和 18.92%
  • 普適性強:無論是在 Llama 還是 Qwen 等不同架構和尺寸的模型上,CARE 都能帶來一致的性能增益,證明了該框架的強大通用性。

反事實問答任務:真正做到“忠于原文”

為了測試模型在面對與自身“知識”相悖的上下文時,是否能堅守原文信息,研究團隊在 CofCA 基準上進行了測試。這被認為是檢驗模型上下文保真度的“試金石”。CofCA基準將測試中使用的長文檔由維基百科替換為了真實世界中不存在的信息,利用反事實的上下文,測試模型在用戶輸入極度OOD時的幻覺表現。

  • 上下文保真度大幅領先:CARE 能夠在給定上下文與模型預訓練知識沖突時,依然準確依據上下文作答,在 LLaMA-3.1 8B 上實現了 13.69% 的性能飛躍。
  • 揭示外部搜索的弊端:相比之下,依賴外部搜索引擎的傳統方法在這一任務上表現不佳,因為外部信息反而加劇了模型混淆,導致其忽略了眼前的“標準答案”。這凸顯了 CARE 原生檢索范式的關鍵優勢:優先并忠實于用戶提供的即時信息。

事實檢索能力評估:答得對,更找得準

CARE 的成功不僅體現在最終答案的準確性上。通過在 HotpotQA 基準上對模型檢索出的事實進行直接評估,研究團隊發現:

  • 檢索質量更高:與其他方法相比,CARE 在定位和提取關鍵支撐事實方面的能力更強,其檢索內容的 BLEU 和 ROUGE-L 分數均達到最高。 這證明了 CARE 真正學會了如何在推理過程中精準地“引用”原文,為最終答案的可靠性提供了堅實的基礎。

綜合來看,CARE 框架通過其創新的原生檢索增強推理機制,不僅在各項評估中取得了 SOTA 級別的性能,更重要的是,它為解決大型語言模型在實際應用中的“幻覺”和“上下文遺忘”問題,提供了一條高效、低成本且易于部署的全新路徑。

總結

針對 LLM 在上下文中容易丟失事實信息的固有問題,雖然已有借助 RAG 流程或調用檢索引擎進行改進的方式,但使得整體流程更長,耗時更久。CARE 則通過一種結合課程學習策略 + RL 的方法來提升 LLM 自身檢索能力,讓模型更多關注到上下文中的事實信息并進一步回答的更準確。這種使用原生檢索增強推理的范式降低了使用者的對接成本,具備更靈活的落地應用性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-28 07:00:00

2024-09-05 08:24:09

2025-10-11 18:05:23

AI智能體模型

2024-03-14 08:11:45

模型RoPELlama

2024-01-29 08:49:36

RAG模型檢索

2025-10-31 01:00:00

2025-12-09 09:28:54

2025-05-07 08:35:11

2025-03-18 08:14:05

2022-09-15 08:01:14

繼承基礎設施基礎服務

2017-05-11 14:00:02

Flask請求上下文應用上下文

2024-03-29 14:04:00

模型訓練

2025-03-04 08:42:19

2012-12-31 10:01:34

SELinuxSELinux安全

2024-04-30 16:17:34

RAGLLM

2025-08-07 08:00:00

2023-10-23 13:23:03

數據訓練

2024-01-08 12:47:02

代碼模型Mistral
點贊
收藏

51CTO技術棧公眾號

色猫猫国产区一区二在线视频| 特黄特黄的视频| 91亚洲精选| 99久久99久久精品国产片桃花 | 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 黄色一区二区三区| 青草青草久热精品视频在线观看| 日韩欧美国产免费| 亚洲欧美日韩国产综合精品二区 | 日韩欧美电影一区| 欧美一区二区视频在线| 成人在线免费看片| 91在线视频免费观看| 国产日韩一区在线| 伊人影院蕉久影院在线播放| 99久久精品久久久久久清纯| 正在播放91九色| 日本一本不卡| 欧美狂野另类xxxxoooo| 免费高清在线观看免费| 欧美日韩综合| 久久在线免费观看视频| 写真片福利在线播放| 日韩 欧美一区二区三区| 91av福利视频| 超碰91在线观看| 国产精品欧美一区喷水| 国产青草视频在线观看| 成人污污视频| 亚洲国产欧美一区二区三区久久| 亚洲欧美中文字幕在线观看| 成人av资源网站| 亚洲综合中文字幕68页| 亚洲美女尤物影院| 欧美日韩一区二区精品| 日本在线一区| 亚洲国产高清视频| 欧美福利一区二区三区| 国产精品99一区二区| 精品久久久久久无码中文野结衣| 欧美日韩一区二区在线观看视频| 在线中文视频| 成人欧美一区二区三区白人| 日韩一二三四| 亚洲国产黄色片| 一区二区免费| 97超碰最新| 国产999精品久久| 久久精品无码一区二区日韩av| 欧美日韩精品是欧美日韩精品| 毛片免费看不卡网站| 国产精品视频播放| 三级不卡在线观看| 中文字幕桃花岛| 91精品免费观看| 高潮久久久久久久久久久久久久| 国产精品理论在线观看| 国产成人在线观看免费网站| 国产精品va在线观看视色| 亚洲欧美日产图| 久久久久久97三级| 日本高清视频网站www| 久久久99爱| 亚洲精选视频免费看| 日韩超碰人人爽人人做人人添| 97人人干人人| 色婷婷久久久久swag精品| 国产精品资源网| 欧美专区一区| 高清毛片在线看| 成人精品一区二区三区电影黑人| 成人午夜在线视频一区| 奇米影视一区二区三区小说| 日本黄大片一区二区三区| 日韩一区二区在线看| 粉嫩av一区二区| 亚洲欧美日本国产有色| 亚洲成人综合视频| 欧美高清影院| 久久国产精品久久精品国产| 综合av第一页| 成人免费av电影| 国产欧美日本在线| 亚洲女性喷水在线观看一区| 日本综合久久| 欧美日韩综合网| 精品久久久久久中文字幕大豆网 | 午夜亚洲性色福利视频| 妞干网2018| 夜夜嗨av一区二区三区四区| 中文久久精品| 三级黄视频在线观看| 午夜精品一区二区三区在线| 国产激情精品久久久第一区二区| 求av网址在线观看| 成人激情视频在线观看| 国产精品国产三级国产普通话99| 成人国产一区| 黄色网址在线免费看| 91麻豆精品国产91久久久久久久久| 成人同人动漫免费观看 | 久久伊人中文字幕| yellow字幕网在线| 久久综合给合久久狠狠色| 狠狠干狠狠久久| 精品久久视频| 先锋影音成人资源| 欧美老肥婆性猛交视频| 成人国产在线观看| 成人免费直播| 中日韩在线视频| 精品成人佐山爱一区二区| 亚洲精品视频啊美女在线直播| 资源视频在线播放免费| 国产999精品久久久| 最新中文字幕一区二区三区| 都市激情亚洲| 岛国毛片在线播放| 97久久国产精品| 欧美激情综合五月色丁香小说| 亚洲成a人片777777久久| 欧美亚洲黄色片| 亚洲欧美中文另类| 国产91高潮流白浆在线麻豆| 欧美日韩女优| 99在线精品免费视频| 久久精品国产v日韩v亚洲| av电影天堂一区二区在线| 91成人福利社区| 手机看片一级片| 国产成人免费av电影| 亚洲精品国产无天堂网2021 | 狠狠v欧美v日韩v亚洲ⅴ| 国产三级在线播放| 亚洲国产一区二区精品视频| 日韩成人黄色av| 国产1区2区3区精品美女| 日本一区二区三区中文字幕| 一本久道综合色婷婷五月| 久久久久久久一区二区三区| 专区另类欧美日韩| 欧美成人激情| 日本中文字幕电影在线免费观看| 日韩av高清在线播放| 亚洲性av在线| 久久欧美中文字幕| 精品美女视频| 18视频免费网址在线观看| 人禽交欧美网站免费| 亚洲日本成人女熟在线观看| 久久久91精品国产一区二区精品 | 午夜精品久久久久久久男人的天堂| 国产精品妹子av| 精品产国自在拍| jizz在线免费观看| 精品国产无码在线| 欧美大尺度激情区在线播放| 一区二区三区蜜桃| 亚洲黄色视屏| 日本综合视频| 午夜影院免费| 欧美成人一区二区在线| 亚洲性生活视频在线观看| 国产日韩一级二级三级| 亚洲精品91| 日韩精品影院| 理论片在线观看理伦片| 亚洲福利av| 欧美专区在线播放| 欧美高清你懂得| www.亚洲国产| 精品视频亚洲| 国产盗摄——sm在线视频| 亚洲jjzzjjzz在线观看| 欧美日韩精品免费观看| 九九久久久久久久久激情| 91久久精品一区二区三区| 国产精品白丝jk白祙喷水网站| 日本在线中文字幕一区| 新版中文在线官网| 在线观看av网页| 日本不卡免费新一二三区| 欧美极度另类性三渗透| 欧美精品在线视频| 国产精品欧美一级免费| 久久午夜精品一区二区| 欧美丝袜足交| 国产高潮在线| 性欧美18+| 成人av在线播放观看| 成人精品视频99在线观看免费| 亚洲欧美成人网| 色婷婷一区二区| 日本一区二区三区dvd视频在线| 亚洲激情影院| 日韩美女毛片| 日韩av超清在线观看| 成人亚洲综合天堂| 国产美女av| 亚洲天堂男人天堂|