国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

DeepMind終結(jié)大模型幻覺?標(biāo)注事實比人類靠譜、還便宜20倍,全開源

人工智能 新聞
AI DeepMind 這篇論文一出,人類標(biāo)注者的飯碗也要被砸了嗎?

大模型的幻覺終于要終結(jié)了?

今日,社媒平臺 reddit 上的一則帖子引起網(wǎng)友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性),文中提出的方法和結(jié)果讓人得出大膽的結(jié)論:對于負(fù)擔(dān)得起的人來說,大語言模型幻覺不再是問題了。

我們知道,大語言模型在響應(yīng)開放式主題的 fact-seeking(事實尋求)提示時,通常會生成包含事實錯誤的內(nèi)容。DeepMind 針對這一現(xiàn)象進(jìn)行了一些探索性研究。

首先,為了對一個模型在開放域的長篇事實性進(jìn)行基準(zhǔn)測試,研究者使用 GPT-4 生成 LongFact,它是一個包含 38 個主題、數(shù)千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator, SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

對于 SAFE,它利用 LLM 將長篇響應(yīng)分解為一組單獨的事實,并使用多步推理過程來評估每個事實的準(zhǔn)確性。這里多步推理過程包括將搜索查詢發(fā)送到 Google 搜索并確定搜索結(jié)果是否支持某個事實 。

論文地址:https://arxiv.org/pdf/2403.18802.pdf

GitHub 地址:https://github.com/google-deepmind/long-form-factuality

此外,研究者提出將 F1 分?jǐn)?shù)(F1@K)擴展為長篇事實性的聚合指標(biāo)。他們平衡了響應(yīng)中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應(yīng)長度的超參數(shù)的百分比(召回率)。

實證結(jié)果表明,LLM 智能體可以實現(xiàn)超越人類的評級性能。在一組約 16k 個單獨的事實上,SAFE 在 72% 的情況下與人類注釋者一致,并且在 100 個分歧案例的隨機子集上,SAFE 的贏率為 76%。同時,SAFE 的成本比人類注釋者便宜 20 倍以上。

研究者還使用 LongFact,對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 種流行的語言模型進(jìn)行了基準(zhǔn)測試,結(jié)果發(fā)現(xiàn)較大的語言模型通常可以實現(xiàn)更好的長篇事實性。

論文作者之一、谷歌研究科學(xué)家 Quoc V. Le 表示,這篇對長篇事實性進(jìn)行評估和基準(zhǔn)測試的新工作提出了一個新數(shù)據(jù)集、 一種新評估方法以及一種兼顧精度和召回率的聚合指標(biāo)。同時所有數(shù)據(jù)和代碼將開源以供未來工作使用。

方法概覽

LONGFACT:使用 LLM 生成長篇事實性的多主題基準(zhǔn)

首先來看使用 GPT-4 生成的 LongFact 提示集,包含了 2280 個事實尋求提示,這些提示要求跨 38 個手動選擇主題的長篇響應(yīng)。研究者表示,LongFact 是第一個用于評估各個領(lǐng)域長篇事實性的提示集。

LongFact 包含兩個任務(wù):LongFact-Concepts 和 LongFact-Objects,根據(jù)問題是否詢問概念或?qū)ο髞韰^(qū)分。研究者為每個主題生成 30 個獨特的提示,每個任務(wù)各有 1140 個提示。

SAFE:LLM 智能體作為事實性自動評分者

研究者提出了搜索增強事實評估器(SAFE),它的運行原理如下所示:

a)將長篇的響應(yīng)拆分為單獨的獨立事實;

b)確定每個單獨的事實是否與回答上下文中的提示相關(guān);

c) 對于每個相關(guān)事實,在多步過程中迭代地發(fā)出 Google 搜索查詢,并推理搜索結(jié)果是否支持該事實。

他們認(rèn)為 SAFE 的關(guān)鍵創(chuàng)新在于使用語言模型作為智能體,來生成多步 Google 搜索查詢,并仔細(xì)推理搜索結(jié)果是否支持事實。下圖 3 為推理鏈?zhǔn)纠?/span>

圖片

為了將長篇響應(yīng)拆分為單獨的獨立事實,研究者首先提示語言模型將長篇響應(yīng)中的每個句子拆分為單獨的事實,然后通過指示模型將模糊引用(如代詞)替換為它們在響應(yīng)上下文中引用的正確實體,將每個單獨的事實修改為獨立的。

為了對每個獨立的事實進(jìn)行評分,他們使用語言模型來推理該事實是否與在響應(yīng)上下文中回答的提示相關(guān),接著使用多步方法將每個剩余的相關(guān)事實評級為「支持」或「不支持」。具體如下圖 1 所示。

圖片

在每個步驟中,模型都會根據(jù)要評分的事實和之前獲得的搜索結(jié)果來生成搜索查詢。經(jīng)過一定數(shù)量的步驟后,模型執(zhí)行推理以確定搜索結(jié)果是否支持該事實,如上圖 3 所示。在對所有事實進(jìn)行評級后,SAFE 針對給定提示 - 響應(yīng)對的輸出指標(biāo)為 「支持」事實的數(shù)量、「不相關(guān)」事實的數(shù)量以及「不支持」事實的數(shù)量。

實驗結(jié)果

LLM 智能體成為比人類更好的事實注釋者

為了定量評估使用 SAFE 獲得注釋的質(zhì)量,研究者使用了眾包人類注釋。這些數(shù)據(jù)包含 496 個提示 - 響應(yīng)對,其中響應(yīng)被手動拆分為單獨的事實(總共 16011 個單獨的事實),并且每個單獨的事實都被手動標(biāo)記為支持、不相關(guān)或不支持。

他們直接比較每個事實的 SAFE 注釋和人類注釋,結(jié)果發(fā)現(xiàn) SAFE 在 72.0% 的單獨事實上與人類一致,如下圖 4 所示。這表明 SAFE 在大多數(shù)單獨事實上都達(dá)到了人類水平的表現(xiàn)。然后檢查隨機采訪的 100 個單獨事實的子集,其中 SAFE 的注釋與人類評分者的注釋不一致。

研究者手動重新注釋每個事實(允許訪問 Google 搜索,而不僅僅是維基百科,以獲得更全面的注釋),并使用這些標(biāo)簽作為基本事實。他們發(fā)現(xiàn),在這些分歧案例中,SAFE 注釋的正確率為 76%,而人工注釋的正確率僅為 19%,這代表 SAFE 的勝率是 4 比 1。具體如下圖 5 所示。

這里,兩種注釋方案的價格非常值得關(guān)注。使用人工注釋對單個模型響應(yīng)進(jìn)行評級的成本為 4 美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為 0.19 美元。

Gemini、GPT、Claude 和 PaLM-2 系列基準(zhǔn)測試

最后,研究者在 LongFact 上對下表 1 中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 個大語言模型進(jìn)行了廣泛的基準(zhǔn)測試。

具體來講,他們利用了 LongFact-Objects 中 250 個提示組成的相同隨機子集來評估每個模型,然后使用 SAFE 獲取每個模型響應(yīng)的原始評估指標(biāo),并利用 F1@K 指標(biāo)進(jìn)行聚合。


結(jié)果發(fā)現(xiàn),一般而言,較大的語言模型可以實現(xiàn)更好的長篇事實性。如下圖 6 和下表 2 所示,GPT-4-Turbo 優(yōu)于 GPT-4,GPT-4 優(yōu)于 GPT-3.5-Turbo,Gemini-Ultra 優(yōu)于 Gemini-Pro,PaLM-2-L-IT-RLHF 優(yōu)于 PaLM- 2-L-IT。


圖片

更多技術(shù)細(xì)節(jié)和實驗結(jié)果請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-04-01 07:00:00

模型AI

2023-03-29 19:35:43

ChatGPT標(biāo)注數(shù)據(jù)

2023-03-29 15:14:15

數(shù)據(jù)AI

2023-03-31 13:23:31

ChatGPTNLPMTurk

2023-09-18 13:14:00

AI工具

2023-09-20 15:21:48

2025-07-07 06:36:14

大模型大模型開源人工智能

2023-04-26 12:19:09

大模型焦慮精神病學(xué)

2025-10-31 16:04:17

DeepMindGPT-5世界模型

2016-11-22 17:26:11

開源PowerShellLinux

2023-08-13 14:53:06

AI效率人工智能

2024-11-02 10:28:03

2023-08-28 00:46:05

計算機模型

2024-04-07 14:48:00

模型訓(xùn)練

2023-07-25 13:10:54

大模型文心大模型百度

2023-11-05 15:09:35

模型AI

2025-08-07 09:18:29

2023-08-27 14:02:28

GPU大模型

2023-09-09 12:56:36

2025-11-28 03:25:00

大模型RLHF大語言模型
點贊
收藏

51CTO技術(shù)棧公眾號

丝袜制服影音先锋| 一区二区在线视频观看| 亚洲午夜影视影院在线观看| 国产 日韩 亚洲 欧美| 99麻豆久久久国产精品免费| 少妇熟女一区二区| 久久久美女毛片| 老司机在线免费视频| 黑人巨大精品欧美一区二区免费 | www.日本三级| 国产精品美女久久久久高潮| 成人黄网18免费观看的网站| 日本欧美加勒比视频| 免费无码毛片一区二三区| 亚洲美女屁股眼交3| 国产精品一区二区婷婷| 久久嫩草精品久久久精品| 四虎影院一区二区三区| 成人三级伦理片| 亚洲色图 在线视频| 狠狠躁夜夜躁人人爽天天天天97| 在线中文字幕电影| 欧美精品久久一区| 日韩中文字幕无砖| 久久国产手机看片| 中文字幕欧美激情一区| 青青青青在线| 91成人在线播放| 亚洲欧美日韩国产综合精品二区| 久久久久久av无码免费网站下载| 国产精品美女久久久久aⅴ| 1769视频在线播放免费观看| 最近中文字幕mv在线一区二区三区四区| 卡通动漫精品一区二区三区| 黄色免费观看视频网站| 日本欧美一区二区| 日日噜噜夜夜狠狠| 蜜桃一区二区三区在线观看| 国产精品久久成人免费观看| 亚洲黄色在线视频| 国产夫妻在线| 国产日韩欧美一区二区三区四区| 99久久99久久精品免费观看| 黄色成人在线| 国产欧美日韩精品丝袜高跟鞋| 久久99蜜桃精品| 欧美伦理影视网| 国产精品视频一区二区高潮| 激情深爱一区二区| 9色在线视频| 俄罗斯精品一区二区三区| 亚洲黄一区二区三区| 日韩免费成人| 无码粉嫩虎白一线天在线观看| 日韩精品丝袜在线| 男人的天堂久久精品| 先锋av资源在线| 国产精品青青在线观看爽香蕉 | 亚洲免费看黄网站| 欧美成人三级| av免费看网址| 66m—66摸成人免费视频| 久久久久久免费毛片精品| av电影高清在线观看| 日韩欧美国产综合一区| 久热精品在线| zzzwww在线看片免费| 午夜精品一区二区在线观看的| 日韩精品一区二区三区蜜臀 | 亚洲黄色小说网站| 激情婷婷欧美| 91成人短视频在线观看| 午夜精品一区二区三区av| 欧美一区二区三区久久精品茉莉花| 日韩毛片视频在线看| 波多野结衣av在线| 国产丝袜一区二区| 理论片午夜视频在线观看| 欧美极品美女电影一区| 日本在线观看不卡视频| 黄网站app在线观看下载视频大全官网 | 国产成人永久免费视频| 精品久久免费看| 成人性生交大片免费看视频在线| 日本欧美一区| 春暖花开亚洲| 亚洲欧美日韩在线一区| 99亚洲精品| 国产在线观看a视频| 无码人妻丰满熟妇区五十路百度| 国产成人亚洲精品| 亚洲国产精久久久久久久| 久久影院电视剧免费观看| 97精品资源在线观看| 国产网友自拍视频导航网站在线观看 | jvid一区二区三区| 欧美3p视频在线观看| 妞干网在线播放| 国产在线拍偷自揄拍精品| 综合136福利视频在线| 欧美精品精品一区| 国产精品嫩草影院av蜜臀| 国产一区二区三区日韩| 久久爱www成人| tube8在线hd| jizz国产| www.xxx麻豆| 中文网丁香综合网| 国产中文一区二区| 成人欧美一区二区三区黑人| 久久久www成人免费精品张筱雨| 欧美性生活影院| 欧美日韩中文在线| 亚洲精品中文在线观看| 国产91丝袜在线播放| 久草在线在线精品观看| 亚洲高清免费| 国产亚洲欧美日韩在线观看一区二区 | 日韩精品中午字幕| 国产精品美女久久久久高潮 | 在线看的你懂得| 手机在线观看国产精品| av色综合网| 国产在线a不卡| 欧美尤物巨大精品爽| 精品国精品国产| 欧美mv日韩mv国产网站| 亚洲欧美一区二区三区在线| 亚洲精品一区二区三区影院| 欧美一区二区三区在| 亚洲国产一区二区三区在线观看| 亚洲综合图片区| 精品国产老师黑色丝袜高跟鞋| 高潮白浆女日韩av免费看| 色哟哟亚洲精品| 欧美日韩精品欧美日韩精品一综合| 亚洲国产成人av| 欧美高清你懂得| 日韩一区二区三区四区 | www.日日操| 欧美第一页浮力影院| 欧美日韩视频在线| 亚洲bt欧美bt日本bt| 一个色综合导航| 55夜色66夜色国产精品视频 | 97伦理在线四区| 高清视频一区| 亚洲福利av在线| 欧美一级黄色片视频| 在线宅男视频| h片在线观看视频免费免费| 日韩国产激情| 色88久久久久高潮综合影院| 亚洲激情一区| 99久久久精品免费观看国产蜜| 亚洲精品视频一区二区| 久久久国产精华| 亚洲成人午夜电影| 亚洲裸体xxxx| 国产精品日韩欧美综合| 免费久久久一本精品久久区| 亚洲 自拍 另类小说综合图区| 一二三在线视频社区| av手机在线观看| 亚洲三级在线| 国产精品多人| caoprom在线| 精品久久网站| 久久综合丝袜日本网| 欧美视频精品在线观看| 色综合91久久精品中文字幕| 欧美日韩综合精品| 亚洲精品男人| 91嫩草精品| 激情久久五月天| 欧美一区二区在线免费播放| 日本91av在线播放| 国产一区在线免费| 四虎精品成人免费网站| 在线观看欧美理论a影院| 久久精品国产久精国产| 欧美三级中文字幕| 欧美福利在线观看| 精品www久久久久奶水| 四虎在线精品| 亚洲福利天堂| 中文字幕乱码日本亚洲一区二区| 国产一区二区日韩精品欧美精品| 丝袜足脚交91精品| 亚洲精品666| 一区二区三区成人精品| 国产欧美一区二区精品性色| 色系列之999| a级片一区二区| 国产成+人+综合+亚洲欧美| 久久婷婷国产综合精品青草| 97精品视频在线观看| 中文字幕久久综合| 日本电影在线观看网站| 玖玖在线精品|