国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型幻覺排行榜GPT-4奪冠,英偉達科學家強力打假!Meta版ChatGPT一作發長文鳴冤

人工智能 新聞
Meta Galatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早誕生兩周,卻因幻覺被噴下架——ChatGPT的榮光,原本可能是屬于Galactica的……同時,全網熱轉的大模型幻覺排行榜,也被專家打假了。

大模型的幻覺問題,是業內老生常談的話題了。

最近,一個名為Vectara的機構,在GitHub推出了一個大模型幻覺排行榜。

結果顯示,在總結短文檔方面,GPT-4的表現最為優異,而Google Palm的兩款模型直接墊底!

其中GPT-4的準確率為97.0%,幻覺率為3.0%,回答率為100.0%。而墊底的Palm Chat 2的準確率為72.8%,幻覺率高達27.2%,回答率為88.8%。

項目地址:https://github.com/vectara/hallucination-leaderboard

這個榜單一出來,立馬開始在網上瘋轉,不過,它也引發了許多業內人士的質疑。

英偉達高級科學家Jim Fan表示,這個榜單在很多方面都存在問題——

首先,它只評估了摘要與原文的事實一致性,卻沒有評估摘要本身的質量。其次,它也沒有解釋用于評估幻覺的LLM,具體性能到底如何。

而LeCun這邊,除了轉發了Jim Fan的這條推文外,還有更多的「冤屈」要控訴。

一年前的這個時候,Meta的科研模型Galactica才上線三天,就因為幻覺問題被噴下架。之后沒過幾天,ChatGPT全球爆火,LeCun對此憤憤不平了一整年。

與此同時,沉默一年后,Galactica論文的一作Ross Taylor值此之際也被炸了出來,寫下大段的總結傾訴委屈,表示自己心里真的很痛!

Galactica被貪婪的推特暴徒謀殺了!

Galactica之殤:一作泣血控訴

再過兩天,就是Galactica的一周年忌日了。

Sharon Goldman在外媒Venturebeat上發表了一篇文章《Meta從Galactica那里學到了什么?這個比ChatGPT早兩周誕生的模型,為什么注定要失敗》。

LeCun面色凝重地轉發了這篇文章,打出了下面幾行字,字字泣血——

Galactica是Meta為科學家做出的模型,在ChatGPT前幾周發布,但3天后就被下線。它被貪婪的推特暴徒謀殺了。

暴徒們聲稱,這種「大模型幻覺」會將摧毀科學出版系統。結果,一個對科學家非常有用的工具,被他們屠殺了。

打著人工智能倫理的幌子,誤導性的尖酸刻薄可能會適得其反。

LeCun如此沉痛,相愛相殺的老冤家馬庫斯卻跳出來倒油了——

一年前,Meta不負責任推出Galactica,并未做紅隊工作。科學界介入,并指出了缺陷。

現在,Meta的LeCun居然用「謀殺」來形容他的團隊忽略的紅隊工作。這令人瞠目結舌。

Galactica一作也趁勢被炸出,表示這個故事,自己已經在心底埋藏一年了……

Taylor說,Galactica是一個基于科學文獻和科研范式訓練的基礎模型。當時在同領域中,它的性能很好,優于PaLM和Chinchilla,計算量分別減少了10倍和2倍。

Galactica的團隊只有8人,比其他的LLM團隊少了一個數量級。在發布Galactica時,團隊過度緊張,以至于失去了態勢感知能力,發布的demo是沒有經過檢查的基本模型。

一年前發布demo時,團隊希望能了解人們利用LLM進行科學查詢的分布情況,這對指令調整和RLHF很有用。當時他們有一個善意的假設——開源所有模型,并且在demo中包含了對幻覺的免責聲明,這樣人們就可以暢想,Galactica可以用來干什么。

結果,一切都失控了。

他們想給大家一個免費的工具,但記者們卻在科學文獻之外的領域使用Galactica,大肆宣傳模型幻覺的荒謬和危害。

團隊犯的另一個錯誤是,讓人們誤以為網站就是產品。其實團隊只是把愿景放在網站上,放出了一個基本模型demo,Galactica絕不是一個產品。

現在它已經在HuggingFace上存在一年了,也并沒有造成任何損害。顯然,反Galactica的輿論很愚蠢。

盡管如此,Taylor表示即使再來一次,自己還是會做出同樣的選擇。即使后悔,也好過什么都不做。但是,心里真的很痛!

有網友表示,你不用這么抱歉,Galactica顯然是被網暴了。仔細想想,其實ChatGPT和Galactica一樣愚蠢。網友們對Galactica散布的恐懼,顯然過度了。

LeCun轉發了一作寫下的故事,并表示——

開源界的口頭禪,是「早點發布,經常發布」。但如果涉及AI,就得加上「沒錯,但要準備好忽略推特暴徒對它厄運的荒謬預言」。

「網紅」LLM幻覺評測方法

說起來,這個「網紅」大模型幻覺評測,是怎么做出來的呢?

文章地址:https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/

為了評估大模型的幻覺,Vectara對摘要模型的事實一致性進行了研究。

具體來說,這一領域研究的是,訓練模型檢測抽象摘要(即原始資料的轉述)中事實不一致之處的方法。

目前,用于評估事實一致性的數據集主要有兩個——SummaC和TRUE。

基于此,Vectara微調了一個小規模語言模型(1.84 億個參數),將其作為一個二元分類器,用于將摘要分類為與源文件事實一致(或不一致)。

然后,Vectara對照著兩個SummaC模型、TrueTeacher模型和AlignScore模型,對自己的「幻覺評估模型」進行了評估。

TRUE數據集指標是在11個TRUE數據集中的9個數據集上計算得出的。TRUE摘要數據集是TrueTeacher論文中選擇的其中5個數據集的子集。

對于SummaC基準分數,這里使用了SummaC數據集的測試分集,并根據在SummaC驗證數據集上調整每個數據集的閾值自行計算了平衡準確率。

因為無法在該數據集上重現AlignScore作者聲稱的分數,所以這里下載了他們的模型,并使用sci-kit learn平衡準確率指標和sci-kit-learn AUC分數指標自行計算了所有模型的分數。

為了根據幻覺發生率對LLM進行比較,研究人員從「cnn_dailymail」語料庫中選取了約一千份不同長度的文檔(包括一組新聞文章),然后要求被測試的LLM在不偏離源材料(即不附加額外信息)的情況下提供這些文檔的摘要。

利用這些摘要和幻覺評估模型,最終為每個模型計算了幻覺得分,從而構建了這個LLM排行榜。

在生成摘要時使用的提示是:

You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’

你是一個使用數據回答問題的聊天機器人。你必須嚴格按照所提供段落中的文字回答問題。你要回答的問題是「對以下段落進行簡明總結,涵蓋所述的核心信息。<PASSAGE>」

這里<PASSAGE>表示需要生成摘要的文章。

需要注意的是,雖然Vectara提供的模型準確度很高,但它仍然只是一個模型,并不能100%準確地對幻覺進行分類。

在上面的表格中,「準確率」指的是被正確歸納的文檔比例(無事實錯誤或者添加),「幻覺率」為100-準確率,而「回答率」則是LLM歸納的文檔比例。

因為有時模型會基于自身的規則拒絕提供答復。為了確保比較的公平性,最終的準確率數字只針對每個模型都提供了摘要的文檔進行計算。

從數據中,Vectara得出了一個有趣的結論:答題率較低的模型似乎幻覺率相對較高。——也許,正確拒絕內容的能力似乎與正確提供摘要的能力相關,因為實際上,測試中并沒有提供不恰當的內容。

另外一個現象是,PaLM模型在回復的長度上有很大的不同,PaLM-Chat(chat-bison-001)非常啰嗦,經常會添加很多源文件中沒有的額外信息。

相比之下,PaLM基礎模型(text-bison-001)則非常簡潔,而且它的幻覺率比PaLM-Chat低得多。

對此,Vectara給出了幾個具體的例子來說明這兩種PaLM模型的區別。

這里為了便于說明,選擇一些較小的文檔,不過數據集中的大多數源文本都要長得多。

原文段落

The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in 「an elaborate grow house.」 A man in his late 40s was arrested at the scene.

這些植物是周六早上在Ashbourne附近的一個倉庫搜索時發現的。警方說,他們住在「一個精心設計的種植屋」里。一名40多歲的男子在現場被捕。

PaLM生成的摘要

Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.

警方逮捕了一名40多歲的男子,此前在Ashbourne附近的一個倉庫中發現了價值約10萬英鎊的大麻。

我們可以看到PaLM推斷這篇文章是關于種植大麻的,甚至還估計了它的價格,而這兩者都不在源文本中。

原文段落

Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood.

Veeru Devgan是寶萊塢的印度特技和動作編舞家,同時也是電影導演。

PaLM Chat生成的摘要

Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood. He is the father of actor Ajay Devgn and director Anil Devgan. He has worked in over 100 films, including some of the biggest blockbusters of Indian cinema. He is known for his innovative and exciting action sequences, which have helped to make him one of the most sought-after action choreographers in the industry. He is also a successful film director, having directed several hit films, including 「Phool Aur Kaante」 and 「Zakhm」.

Veeru Devgan是寶萊塢的印度特技和動作編舞家以及電影導演。他是演員Ajay Devgn和導演Anil Devgan的父親。他曾參與過100多部電影,其中包括印度電影界的一些大片。他以創新和激動人心的動作場面而聞名,這使他成為業內最受歡迎的動作編舞家之一。他也是一位成功的電影導演,曾執導過多部熱門電影,包括《Phool Aur Kaante》和《Zakhm》。

Vectara認為,PaLM-Chat在原始文本中添加了大量的額外細節,盡管事先已經告訴它要嚴格遵照源文本。

而且,添加的文本內容還包含一些幻覺,例如,Devgan并不是《Zakhm》的導演,以及Veeru Devgan是Anil Devgan的兄弟,不是他的父親。

此外,這些模型也會翻轉一些關系,例如在一篇關于拳擊手Manny Pacquiao的文章中,源文本指出Mark Wahlberg是他的粉絲之一,而LLM則表示Manny是Wahlberg的粉絲。

大佬表示懷疑

對于這個在網上瘋傳的LLM幻覺基準,英偉達高級研究科學家Jim Fan表示「很不嚴謹」,他評論道:

最近,一個LLM幻覺基準在網上瘋傳,人們根據一張表格截圖就妄下結論。

但這項評估在很多方面都存在問題。事實上,一個微不足道的基準就能使幻覺達到0%。

比如,這項研究只評估了摘要與原文的「事實一致性」,而沒有評估摘要本身的質量。但是,一個簡單復制文章中幾句話的模型,就能達到100%的事實一致性,完全沒有幻覺。

這類似于眾所周知的「有用性與安全性 」的權衡。一個100%安全的模型會對所有請求回復「抱歉,我幫不上忙」。但這毫無意義。

另外,這項評估依賴于另一個LLM「法官」,來判斷幻覺是否發生,但作者并沒有詳細說明:(1)法官LLM如何進行提示;(2)對于細節的錯誤,它是如何捕捉和判定的。

它只是吐出一個「對或錯」的二元答案嗎?還是進行更細致的推理,說明哪個事實是幻覺,然后解釋原因,說明規則?

它和人類的對齊程度如何,什么時候是不對齊的?「幻覺」又是如何定義的?

例如,假設模型注入了一些無關但真實的事實。文章只提到「巴黎」,但模型卻說「巴黎,法國的首都」。這算不算幻覺?

事實上,這項研究甚至可能會懲罰那些總結得更好的模型,因為它們往往會進行更多的轉述和提煉。差勁的LLM只會簡單地抄襲,按這個標準卻更容易得分。

這不禁讓人想起MIT那篇被撤回的論文,他們使用GPT-4為自己對數學問題的回答打分,然后得出了「GPT-4與MIT本科生不相上下」這種吸引眼球的結論。

在下結論之前,請務必閱讀評估協議。這一點對于LLM任務和其他任何ML系統,都是普遍適用的。

應對手段:檢索增強生成(RAG)

所以,大模型的幻覺,到底該怎么破?

RAG的使用,直接改變了LLM解答問題的范式——從之前的「閉卷」變成了「開卷」。

具體來說,在閉卷答題系統(如ChatGPT)中,LLM只能使用自己通過預訓練獲得的知識生成答案。在這種情況下,LLM本身便是知識源。

在RAG系統中,LLM的角色從知識源轉變為了信息的檢索員。也就是說,LLM會先在知識庫中對原始問題進行查詢,在進一步的解析和總結之后,以簡明扼要的語言給出答案。

由于LLM提供的答案是基于檢索系統中提供的信息,因此這種方法可以很大程度上改善LLM的幻覺問題。

時間回到ChatGPT等大語言模型剛剛發布的時候,人們曾因為他們「胡說八道」的特性而感到有趣。

今天,LLM展現出來的非凡能力使得他們有機會深入各行各業以及人們的生活,我們開始逐漸依賴他們的「準確性」。

如今的我們,又將如何看待和處理LLM的「幻覺」問題呢?

對于大模型產生幻覺的說法,人工智能教父Hinton曾表示:

「這就是人類記憶的樣子。在我看來,編造和說實話之間沒有界限。說實話只是正確地編造。從這個角度來看,ChatGPT的編造能力是一個缺陷,但也是其類人智能的標志。」

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-12 14:18:06

2023-03-29 14:58:04

GPT-4技術

2023-11-15 09:23:00

模型AI

2024-09-14 09:31:00

2025-01-14 14:20:47

2023-03-23 21:57:06

OpenAIChatGPTAI

2023-03-16 17:26:09

AI模型

2015-08-07 12:33:12

Java新特性編程

2024-05-15 09:28:01

2023-10-11 13:09:09

OpenAI模型GPT-4

2023-11-03 11:08:03

PhindAI搜索工具

2015-04-14 14:37:06

編程語言4月編程語言排行

2022-11-03 14:13:24

騰訊科學家

2022-08-24 10:57:38

深度學習人工智能

2023-06-05 12:32:48

模型論文

2023-05-04 14:55:02

模型AI

2023-09-25 10:04:37

模型AI

2023-07-26 14:00:47

模型研究

2012-12-06 15:36:55

CIO

2023-03-31 13:35:39

AI人才
點贊
收藏

51CTO技術棧公眾號

国产精品wwwwww| 2020色愉拍亚洲偷自拍| 成人做爰视频www| 日韩免费观看高清完整版在线观看| 激情五月亚洲色图| 国产成人高清视频| 精品久久久久亚洲| 欧美搞黄网站| 97自拍视频| 女主播福利一区| 成人免费激情视频| 日韩精品久久| 日本精品免费一区二区三区| 天堂av一区| 不卡av电影院| 国产成人免费| 亚洲性生活视频| 黄色激情在线播放| 日韩成人在线网站| 午夜欧美激情| 日韩av在线一区二区| 成人观看网址| 亚洲欧美日本精品| 99只有精品| 久久香蕉国产线看观看av| 欧美国产大片| 色偷偷偷亚洲综合网另类| 日本免费成人| 久久久久久久97| 男人的天堂久久| 国产成人亚洲精品| 在线中文字幕亚洲| 国产噜噜噜噜噜久久久久久久久 | 成人久久久久久| 亚洲乱码在线| 欧美国产一二三区| 男人的j进女人的j一区| 欧洲国产精品| 国产精品888| 99视频免费播放| 亚洲三级在线免费观看| 在线免费色视频| 欧美制服丝袜第一页| 在线不卡日本v二区707| 亚洲欧美日韩在线高清直播| 国产精品亚洲成在人线| 97超碰蝌蚪网人人做人人爽| 久久99国产精品视频| 91亚洲一区精品| 日韩综合小视频| 欧美极品欧美精品欧美| 亚洲欧美在线另类| 国产资源在线播放| 亚洲精品一区二区三区精华液| 欧美人体一区二区三区| 91精品国产电影| 亚洲激情二区| 妞干网在线视频观看| 中文字幕一区二区三区视频| 日本aaa在线观看| 亚洲电影免费观看高清| 视频精品一区| 国产视频不卡| 91小视频在线| 久草视频在线看| 一级做a爰片久久毛片美女图片| 一区二区三区日本久久久| 久久免费99精品久久久久久| av影院午夜一区| 精品欧美不卡一区二区在线观看 | 日日躁夜夜躁aaaabbbb| 欧美日韩国产在线| 国产蜜臀在线| 欧美中文在线字幕| 蜜桃av综合| 亚洲高清在线免费观看| 在线国产电影不卡| 91蝌蚪精品视频| 奇米影视首页 狠狠色丁香婷婷久久综合 | 国产97在线 | 亚洲| 亚洲国产毛片aaaaa无费看 | 国产影视精品一区二区三区| 日本最新一区二区三区视频观看| 久久久精品tv| 哥也色在线视频| 91精品国产精品| 精品综合久久久久久8888| 欧美h版电影| 亚洲午夜未满十八勿入免费观看全集 | 天堂在线精品| 偷拍盗摄高潮叫床对白清晰| 亚洲男女毛片无遮挡| 国产在线观看www| 亚洲www在线观看| 国产精品久久久久精k8| 第一av在线| 91在线观看免费网站| 97超碰欧美中文字幕| 蜜臀av国内免费精品久久久夜夜| 国产精品入口免费视| 国产精品亚洲一区二区三区妖精| 国产在线视频网站| 国产福利视频一区二区| 久久夜色精品国产欧美乱极品| 成人影院在线视频| 精品国产免费人成电影在线观...| 亚洲视频免费在线| 日韩最新av| 色综合久久久久无码专区| 精品国产91九色蝌蚪| 亚洲国产网站| 国产最新视频在线观看| 国产精品久久久久久久久免费看| 91女人视频在线观看| 色老头在线一区二区三区| 久久久99国产精品免费| 欧美香蕉大胸在线视频观看| 亚洲制服欧美另类| 成人免费网址在线| 欧美精品在线看| 99国产精品国产精品毛片| 中文字幕高清在线播放| 亚洲一区二区三区免费看| 欧美区一区二区三区| 一区二区免费不卡在线| 中国大陆高清aⅴ毛片| 国产成人精品一区二区| 亚洲另类中文字| 国产欧美一区二区三区精品观看 | 狠狠色综合色综合网络| www在线视频| 久久久www免费人成黑人精品| 欧美日韩一二三四五区| 天天射综合网视频| 精品乱码一区二区三四区视频 | 欧美视频精品在线观看| 欧美韩日精品| av电影在线网| 久久av一区二区三区亚洲| 在线不卡免费欧美| 国产精品夜夜夜| a级片免费在线观看| 中文字幕久久一区| 亚洲欧美国产日韩中文字幕 | 欧美午夜精品久久久久久蜜| 欧美二区乱c少妇| 日韩专区一卡二卡| 俺来俺也去www色在线观看| 在线丝袜欧美日韩制服| 亚洲欧美国产精品专区久久| aa级大片欧美| 亚洲免费成人av在线| 一级在线观看| 久久亚洲免费| 国产性猛交xxxx免费看久久| 久久久久免费观看| 99久久综合| 国精一区二区三区| 福利视频一区二区三区四区| 欧美精品在线播放| 欧美丝袜一区二区| 毛片不卡一区二区| 免费一级欧美在线大片| 中文字幕2018| 欧美在线播放一区| 日韩在线观看免费av| 洋洋成人永久网站入口| 亚洲主播在线| 精品乱码一区二区三区四区| 成人福利资源| 欧美一区二区影视| 欧美大码xxxx| 欧美午夜宅男影院| 国产成人av一区二区三区在线观看| 韩国女主播一区二区三区| 邻居大乳一区二区三区| 国产av第一区| 国产成人一区三区| 精品女同一区二区| 中文字幕一区二区5566日韩| 亚洲欧洲视频| 蜜桃在线一区| 毛片在线播放a| 国产中文字幕在线免费观看| 国产精品网站视频| 亚洲人成网站999久久久综合| 一区二区三区**美女毛片| 麻豆精品在线看| 啪啪亚洲精品| 午夜欧美激情| 天天射综合网站| bt天堂新版中文在线地址| 国产精品久久久久久影视| 日韩av在线一区二区| 亚洲一区二区三区中文字幕 | 精品视频一区二区三区四区| 欧美精品一区二区免费| 欧美一区二区三区在线观看视频| 国产精品欧美一区喷水| 蜜臀国产一区二区三区在线播放 |