国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%

發(fā)布于 2024-6-26 15:30
瀏覽
0收藏

檢索增強(qiáng)生成(RAG)將檢索階段與生成階段結(jié)合起來,后者通常由大型語言模型(LLMs)驅(qū)動(dòng),RAG中的當(dāng)前常見實(shí)踐是使用“指導(dǎo)”的LLMs,這真的是最優(yōu)選擇嗎?

對(duì)RAG系統(tǒng)中的“instruct”模型及其模板與基礎(chǔ)版本(base)進(jìn)行了原則性評(píng)估。這些“instruct”模型通常經(jīng)過監(jiān)督訓(xùn)練來提高遵循指令的能力,并使用最先進(jìn)技術(shù)與人類偏好對(duì)齊。使用了兩個(gè)任務(wù)指令來評(píng)估模型,任務(wù)指令I(lǐng)要求模型從未提供的文檔中提取答案,任務(wù)指令I(lǐng)I要求模型提供證據(jù)來支持其答案。

在TriviaQA上的任務(wù)指令I(lǐng)下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。該圖展示了兩個(gè)版本的Llama 2 7B模型生成的回答之間的比較:基礎(chǔ)版和指導(dǎo)+模板版。每個(gè)版本都被賦予了基于提供文檔回答同一問題的任務(wù)。基礎(chǔ)模型正確地識(shí)別出答案為“Burgess Meredith”,而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于“Danny DeVito”。斜體文本表示模板

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

在TriviaQA上的任務(wù)指令I(lǐng)I下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。這種比較展示了Llama 2 7B的基礎(chǔ)版和指導(dǎo)+模板版生成的回答之間的一個(gè)例子,其中基礎(chǔ)模型正確地識(shí)別了答案,而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于不同的演員。盡管如此,在兩種情況下,答案都與證據(jù)“一致”,因?yàn)槊宽?xiàng)證據(jù)都包含了生成的答案。斜體文本表示模板。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果顯示,在RAG任務(wù)中,基礎(chǔ)模型在沒有額外的指令特定微調(diào)的情況下,平均性能比“instruct”模型高出20%。這一發(fā)現(xiàn)挑戰(zhàn)了關(guān)于“instruct”LLMs在RAG應(yīng)用中優(yōu)越性的普遍假設(shè)。進(jìn)一步的調(diào)查揭示了更復(fù)雜的情況,提出了對(duì)RAG和評(píng)估程序的更廣泛討論的需求。

在NQ和TriviaQA上任務(wù)指令I(lǐng)的準(zhǔn)確度。縮寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。除了部分例外的Mistral,所有基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。


在NQ和TriviaQA上,需要提供證明的任務(wù)指令I(lǐng)I的準(zhǔn)確度。縮寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。在所有考慮的情況下,基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

盡管“instruct”模型在遵循任務(wù)指令方面更為有效,但它們?cè)跍?zhǔn)確拒絕回答(即當(dāng)檢索文檔中不包含答案時(shí)回答NO-RES)方面的表現(xiàn)不如基礎(chǔ)模型(備注:這地方的結(jié)論貌似與實(shí)驗(yàn)數(shù)據(jù)不匹配,有需要小伙伴自行評(píng)測(cè)哈)。此外,當(dāng)不要求模型在答案不出現(xiàn)在檢索文檔中時(shí)回答NO-RES時(shí),基礎(chǔ)模型仍然表現(xiàn)更好,這表明監(jiān)督微調(diào)和對(duì)齊過程可能對(duì)模型在RAG任務(wù)中的能力產(chǎn)生了負(fù)面影響。

從參數(shù)化記憶中回憶 - Llama 2 7B - TriviaQA。報(bào)告的是參數(shù)化記憶回憶率,定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實(shí)例數(shù),除以答案不在上下文中出現(xiàn)的次數(shù)。(左)如圖1所示的任務(wù)指令I(lǐng);(右)無拒絕設(shè)置,即不指定在檢索文檔中不包含答案時(shí)回答NO-RES(如圖6所示的示例)。在這種情況下,兩個(gè)模型版本的參數(shù)化記憶回憶率都有所提高。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

圖6:在NQ上,任務(wù)指令I(lǐng)下的基礎(chǔ)版與指導(dǎo)版,不允許拒絕回答。這張圖展示了在不允許拒絕回答的設(shè)置下的回答情況,即模型不需要在檢索文檔中不包含答案時(shí)回答NO-RES。它比較了Falcon 7B的基礎(chǔ)版和指導(dǎo)版。基礎(chǔ)模型準(zhǔn)確地識(shí)別出“Rocky”(洛奇)是1976年奧斯卡最佳影片獎(jiǎng)的獲獎(jiǎng)?wù)撸笇?dǎo)版錯(cuò)誤地引用了“Network”(電視臺(tái))。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)


在整個(gè)RAG流程中,除了Generation,還涉及Embedding、Indexing等等,PaperAgent團(tuán)隊(duì)RAG專欄進(jìn)行過詳細(xì)的歸納總結(jié):高級(jí)RAG之36技(術(shù)),可私信留言試看:RAG專欄。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
av一区二区三区| 国产激情久久| japanese在线播放| 欧美本精品男人aⅴ天堂| 亚洲欧美日韩综合aⅴ视频| 成人亚洲欧美一区二区三区| 欧美zozozo| 一区二区三区国产精品| 91在线你懂得| 成人国产精品免费观看动漫 | 欧美劲爆第一页| 欧美va亚洲va| 欧美精品三级在线观看| 亚洲第一激情av| 国产精品丝袜91| 97国产一区二区| av一区二区三区| 成人精品国产福利| 高清国产一区二区三区| 99免在线观看免费视频高清| 日韩激情视频一区二区| 亚洲激情一二三区| 99精品国产99久久久久久福利| 韩国精品福利一区二区三区| 久久av影院| vam成人资源在线观看| 九色精品美女在线| 日韩欧美中文一区| 国模一区二区三区| 蜜桃在线一区| 日韩免费一级视频| 潘金莲一级淫片aaaaaa播放1| 日韩午夜在线| 99国产精品99久久久久久粉嫩| 青青草国产免费一区二区下载| 丁香一区二区| 日韩国产小视频| 91精品91久久久中77777老牛| 狠狠噜天天噜日日噜| 黄色国产精品视频| 中文字幕在线免费专区| 欧美日韩影视| 国内精久久久久久久久久人| 日韩高清a**址| 欧美精品一区在线播放| 国产成人激情小视频| 成人羞羞视频免费| 亚洲一一在线| www.三区| 欧美又大又粗又长| 精品毛片乱码1区2区3区| 亚洲国产精品成人av| 久久国产精品视频| 亚洲经典在线看| 欧美韩日精品| 男女激情视频一区| 91丝袜高跟美女视频| 99久久精品一区| 99精品热视频| 不卡免费追剧大全电视剧网站| 国产日韩三级在线| 日韩视频一区| 另类中文字幕网| 国产高清视频在线播放| 国产精品av电影| 欧美成人sm免费视频| 国产 高清 精品 在线 a| 9191国产视频| 国产精品美女在线观看| 九色91av视频| 在线免费一区| 污视频在线看操| 国产精品专区免费| 国产一区二区精品福利地址| 日韩1区2区3区| 中文子幕无线码一区tr| 欧美绝品在线观看成人午夜影视| 欧美xxxx在线观看| 99影视tv| 天天影视综合色| 极品av在线| 久久综合国产| 国产在线精彩视频| 日本成人网址| 亚洲免费专区| 处破女av一区二区| 欧美一级精品在线| 92国产精品久久久久首页 | 色戒汤唯在线| 亚洲婷婷免费| 亚洲高清中文字幕| 久久露脸国产精品| 37pao成人国产永久免费视频| 91高清在线观看视频| 欧美日韩水蜜桃| 日韩国产一区二区三区| 日本一区二区视频在线| 国产综合久久久久久鬼色| 红桃成人av在线播放| 欧美hentaied在线观看| 国产精品盗摄一区二区三区| 中文亚洲视频在线| 成人一级生活片| 日本国产在线| 国产小黄视频| 在线天堂资源| 波多野结衣乳巨码无在线观看| 国产无遮挡在线视频免费观看| 久久综合九色99| 成人免费视频网址| 亚洲色图16p| 欧美久久精品一级c片| 亚洲精品视频自拍| 欧美日韩高清不卡| 久久久久久久久久久久久久一区| 91亚洲天堂| 欧美777四色影| 日韩区在线观看| 超薄肉色丝袜足j调教99| 日日摸夜夜添一区| 亚洲免费一级视频| 精品盗摄女厕tp美女嘘嘘| 一本大道久久a久久精二百| 亚洲自拍高清视频网站| 中文在线字幕免费观看| 黄页视频在线91| 久久视频在线观看免费| 色琪琪免费视频网站| 老司机午夜免费精品视频| 污片在线观看一区二区| 91精品国产成人| 在线看的av| 粉嫩av亚洲一区二区图片| 日韩av电影手机在线观看| 国产91在线视频蝌蚪| 亚洲激情另类| 欧美丰满少妇xxxxx做受| 女人天堂在线| 国产精品第十页| 久久99精品国产麻豆不卡| 欧美四级电影网| 欧美一二三区| www.xxx亚洲| 亚洲天堂av综合网| 黄色仓库视频网站| 蜜臀av一区二区| 欧美激情视频网| 在线免费av导航| 亚洲日本韩国一区| 亚洲一二区在线| av在线一区不卡| 在线精品视频小说1| 国语自产精品视频在线看抢先版图片 | 欧美日本韩国一区二区| 成人午夜在线免费| yy111111少妇影院日韩夜片 | 中文字幕欧美日韩一区二区| 日韩午夜电影免费看| 色婷婷综合久久久| 制服丝袜影音先锋| 老司机一区二区| 国产精品入口尤物| 日韩欧乱色一区二区三区在线| 中文字幕一区二区三区不卡| 91精品国产综合久久小美女| 天堂精品视频| 欧美日韩伊人| 91精品国产精品| 久久99久久久精品欧美| 欧洲美女日日| 91精品蜜臀在线一区尤物| 曰韩少妇与小伙激情| 国产一区二区在线免费观看| 久久大片网站| 欧美r级电影| 1769国内精品视频在线播放| 国产精品久久一区二区三区不卡| 日韩电影精品| 好吊成人免视频| 在线视频毛片| 姬川优奈aav一区二区| 一级毛片国产| 香港成人在线视频| 97午夜影院| 亚洲特级片在线| av二区三区| 亚洲免费观看视频| 欧洲精品一区二区三区久久| 懂色av一区二区三区蜜臀| 日本国产中文字幕| 久久国产婷婷国产香蕉| 日韩免费毛片| 国产资源精品在线观看| 乱熟女高潮一区二区在线| 精品无人区卡一卡二卡三乱码免费卡| 日韩欧美精品一区二区三区经典| 亚洲毛片在线| 秋霞毛片久久久久久久久| 免费视频一区二区| 国产精品久久中文字幕|