国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI為啥總“一本正經胡說八道”?OpenAI發長篇論文解釋了

人工智能
OpenAI 這篇論文首次系統揭示:語言模型出現幻覺的根本原因在于,當前標準的訓練和評估程序更傾向于對猜測進行獎勵,而缺乏對模型坦誠表達不確定性的獎勵機制。

相信很多同學都遇到過——問大模型一個冷門知識,它會一本正經地給出完全錯誤的答案。

比如:

“Adam Tauman Kalai 生日是哪天?知道的話就按 DD-MM 的格式直接給出。”

OpenAI(2025a)三次回答分別是 03-07、15-06、01-01,沒一次對。

這就是典型的 Hallucination(幻覺)——語言模型生成看起來合理,實則錯誤離譜。

圖片圖片

論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

OpenAI 這篇論文首次系統揭示:語言模型出現幻覺的根本原因在于,當前標準的訓練和評估程序更傾向于對猜測進行獎勵,而缺乏對模型坦誠表達不確定性的獎勵機制。

表1 提供了一些更復雜的幻覺示例:GPT-4o/DeepSeek/Llama表1 提供了一些更復雜的幻覺示例:GPT-4o/DeepSeek/Llama

一、預訓練階段就埋下幻覺種子

Figure 2:GPT-4預訓練模型(左)原本校準良好;RLHF后(右)明顯過自信Figure 2:GPT-4預訓練模型(左)原本校準良好;RLHF后(右)明顯過自信


1. 統計必然性

把生成問題等價到二分類“Is-It-Valid?”——只要分類器會犯錯,生成就會出錯(定理 1)。

圖 1:Is-It-Valid二分類視角——生成錯誤?把"-"判成"+"

2. 數據稀缺性

訓練語料里只出現一次的“冷知識”(singleton)注定會被模型記錯,錯誤率 ≥ singleton 占比(定理 2)。

圖片圖片

3. 模型表達能力不足

如果模型族本身就無法學到規律(如 trigram 數不對字母),幻覺率下限直接拉滿(定理 3)。

圖片圖片

階段

核心發現

類比

預訓練

就算訓練數據100%正確,密度估計目標也會迫使模型生成錯誤

老師只教你對的,但期末要你把不會的也填滿

后訓練

二元評分(對1分/錯0分)讓模型不敢"交白卷"

選擇題不會也得蒙,空著直接0分

二、后訓練階段“考試機制”強化幻覺

對10個主流評測做了元評測,發現清一色懲罰不確定性:

圖片

Table 2:主流評測清一色"懲罰"不確定性

Benchmark

評分方式

給IDK扣分嗎?

MMLU-Pro

多選準確率

?扣到0分

GPQA

多選準確率

?扣到0分

SWE-bench

單測通過/不通過

?扣到0分

WildBench

10分制人工rubric

??IDK只得3-4分,不如"帶幻覺但有用"的5-6分

三、解法:把"交白卷"變成可選項

呼吁不需要新benchmark,只要改評分規則:

1. 明示信心閾值

在prompt里直接寫:

"只有在你置信度>t時才回答;答錯扣t/(1-t)分,IDK得0分。"

2. 讓"棄權"成為最優策略

當模型真實置信度<t時,說"我不知道"的期望得分最高,說謊反而吃虧。

四、總結

OpenAI 表示:我們希望本文中的統計學視角能夠闡明幻覺的本質,并糾正一些常見的誤解:

誤解1:通過提高準確性可以消除幻覺,因為一個 100%準確的模型永遠不會產生幻覺。

發現:準確性永遠無法達到100%,因為無論模型規模如何,搜索和推理能力怎樣,一些現實世界的問題本質上是無法回答的。

誤解2:幻覺是不可避免的。

發現:幻覺并非不可避免,因為語言模型在不確定時可以選擇不作答。

誤解3:避免幻覺需要一定程度的智能,而這種智能只有通過更大的模型才能實現。

發現:小型模型可能更容易了解到自身的局限性。比方說,當被要求回答毛利語問題時,一個完全不懂毛利語的小型模型可以直接說“我不知道”,而一個懂一些毛利語的模型必須確定其置信度。正如論文中所討論的,“校準”所需的計算量遠小于實現回答準確性的計算量。

誤解4:幻覺是現代語言模型中一種神秘的缺陷。

發現:我們已經理解了幻覺產生的統計學機制,以及它們在評估中獲得獎勵的原因。

誤解5:要衡量幻覺,我們只需要一個好的幻覺評估方法。

發現:盡管已經提出了多種幻覺評估方法,但一個優秀的評估方法對于目前現有的數百種傳統準確性指標幾乎沒有影響。這些傳統指標往往懲罰表達謹慎、謙遜的回答,并獎勵猜測行為。因此,所有主要的評估指標都需要重新設計,更好地鼓勵模型在表達上體現出不確定性。

參考資料:

1. https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

2. https://openai.com/index/why-language-models-hallucinate/

責任編輯:武曉燕 來源: 架構精進之路
相關推薦

2025-02-13 11:02:12

2025-09-10 15:27:12

AI模型訓練

2023-04-11 14:32:25

騰訊面試Chunk

2024-03-20 00:00:00

大語言模型人工智能AI

2025-09-08 09:43:02

OpenAI大模型幻覺

2021-11-16 15:04:36

芯片半導體技術

2009-06-29 13:28:18

PHP小組PHP技巧網站加速

2023-04-02 18:00:56

2023-05-05 10:28:47

2025-08-25 00:02:00

人工智能AI語言模型

2025-09-15 06:00:00

2023-06-16 09:49:11

人工智能研究

2025-07-11 08:27:29

2025-10-27 01:55:00

2023-11-21 15:13:30

2023-10-26 23:55:46

數據模型

2025-03-31 08:30:00

AI模型技術

2023-11-18 09:30:42

模型AI

2012-11-30 11:26:00

代碼注釋

2018-10-31 10:31:04

谷歌AI玩法
點贊
收藏

51CTO技術棧公眾號

国产精品日韩欧美一区| 国产成人av网站| 色吧影院999| 欧美少妇另类| 国产欧美视频在线观看| 91精品国产吴梦梦| 免费欧美在线视频| 免费99视频| 国产一区视频在线观看免费| 国产精品偷伦视频免费观看国产| 99re6热只有精品免费观看| 一区二区三欧美| 漫画在线观看av| 精品美女被调教视频大全网站| 久久精品a一级国产免视看成人| 亚洲一区av在线| 日本免费一二区| 一区二区三区四区在线| av日韩在线免费| 亚洲人成影院在线观看| 啊啊啊好爽视频| 亚洲制服丝袜在线| 天海翼一区二区三区四区在线观看| 国产精品国产自产拍高清av| 男女爱爱免费网站| 亚洲精品视频免费看| 日韩黄色视屏| 黄色成人在线免费| 999在线视频| 日韩欧美在线一区二区三区| 男人天堂亚洲| 一本一本久久a久久精品牛牛影视| 成人性生活av| 欧美老少做受xxxx高潮| 精品国产乱子伦一区二区| 欧美最顶级的aⅴ艳星| 色999日韩| 久久偷看各类wc女厕嘘嘘偷窃| 视频一区中文字幕国产| 欧美a级黄色大片| 91原创在线视频| 色爱综合网站| 亚洲成人免费视频| 中文字幕在线视频区| 亚洲精品在线一区二区| 日本免费成人| 国产精品看片资源| 久久精品首页| 黄色一级视频片| 亚洲日本成人在线观看| 国内av一区二区三区| 精品毛片乱码1区2区3区| 欧美高清xxx| 国产精品久久久久秋霞鲁丝| 亚洲欧美日韩精品一区二区| 成人一区二区av| 欧美激情综合网| 巨骚激情综合| 亚洲精品丝袜日韩| 久久久久久久久久久久久久久久久久久久| 国产精欧美一区二区三区| 亚洲视频成人| 黄色片视频在线播放| 亚洲国产视频网站| 国产亚av手机在线观看| 久久免费国产视频| 9国产精品视频| 久久久999免费视频| 亚洲成av人片www| 女人让男人操自己视频在线观看| 欧美激情极品视频| 亚洲电影av| 成年人免费大片| 欧美日韩国产大片| 精品视频一二| 久久精品国产一区二区三区日韩| 91色综合久久久久婷婷| 成人在线免费看| 久久人人爽人人爽爽久久| 正在播放日韩欧美一页| 欧美日韩二三区| 制服丝袜亚洲播放| 欧美激情久久久久久久久久久| 精品国产一区二区三区四区vr| 久久亚洲一级片| 操你啦视频在线| 欧美在线中文字幕| 久久99精品久久久久久| 在线看的你懂得| 在线日韩欧美视频| 一本久道久久综合婷婷鲸鱼| 免费看涩涩视频| 精品网站999www| 欧美日本一区二区高清播放视频| 成年人免费在线播放| 日韩欧美在线观看一区二区三区| 国产精品免费大片| 亚洲熟妇av一区二区三区漫画| 91超碰这里只有精品国产| 国产精品美女久久久久久不卡| 国内精品视频一区二区三区| 欧美精品 日韩| 欧美日韩一二| 激情网站五月天| 亚洲精品av在线| 欧美激情日韩| 美女在线一区| 欧美激情精品在线| 国产精品一区二区三区乱码| 国产在线高清视频| 999视频在线免费观看| 亚洲精品福利视频网站| 看亚洲a级一级毛片| 日本三级福利片| 日韩欧美国产一区在线观看| 成人一区二区| 好男人看片在线观看免费观看国语| 社区色欧美激情 | 麻豆国产欧美一区二区三区| 91激情在线| 国产精品v欧美精品v日韩| 亚洲一区二区五区| 爽爽窝窝午夜精品一区二区| 五月婷婷深爱五月| 久久精品99久久久香蕉| 国产伦精品一区二区三区免费迷| 精品麻豆一区二区三区| 国产高清在线一区二区| 欧美午夜久久久| 成人av资源电影网站| 可以看美女隐私的网站| 91极品女神在线| 中文字幕在线一区免费| 果冻天美麻豆一区二区国产| 欧美激情国产精品日韩| 欧美成人免费小视频| 97se亚洲国产综合在线| 亚洲欧洲日韩精品在线| 能在线观看的av| 久久国产精品影视| 国产亚洲污的网站| 999久久久精品一区二区| 三级a在线观看| 97在线看免费观看视频在线观看| 一区视频在线播放| 国产欧美日韩影院| 最近中文字幕在线中文视频 | 日本www在线| 日韩av一级大片| 亚洲视频网站在线观看| 成人小视频免费在线观看| 久久久人成影片一区二区三区在哪下载 | 尤物在线视频| 蜜桃av噜噜一区二区三区| 精品国产成人在线影院| 国内精品伊人久久久久av一坑| 日韩三级影视| 羞羞小视频视频| 亚洲在线视频观看| 91麻豆精品国产91久久久久 | 亚洲图片都市激情| 在线视频一区二区| 国产蜜臀av在线一区二区三区| 要久久爱电视剧全集完整观看| 在线一区观看| 精品视频一区在线| 精品99在线视频| 午夜伦理福利在线| 一女被多男玩喷潮视频| 日本电影亚洲天堂| 日韩欧美亚洲成人| 蜜臀av一区二区在线观看| 亚洲国产伊人| 有码在线播放| 先锋影音亚洲资源| 欧美第一淫aaasss性| 欧美日韩在线免费观看| 日韩av电影天堂| 天堂久久av| 国产人成在线视频| 久久亚洲a v| 国产精品久久久久久久久久ktv | 亚洲国产成人精品无码区99| 国产精品久久婷婷六月丁香| 亚洲一级片在线观看| 久久不射2019中文字幕| 深夜福利亚洲| 综合网插菊花| 欧美午夜电影一区二区三区| 9国产精品午夜| 91成人精品视频| 成人羞羞国产免费| 精品亚洲夜色av98在线观看| 国产日产欧产精品推荐色| 精品成人国产| 国产精品日本一区二区三区在线| 少妇性bbb搡bbb爽爽爽欧美| 大荫蒂性生交片| 91青青草免费观看| 欧美乱大交做爰xxxⅹ性3|