AI為啥總“一本正經胡說八道”?OpenAI發長篇論文解釋了
相信很多同學都遇到過——問大模型一個冷門知識,它會一本正經地給出完全錯誤的答案。
比如:
“Adam Tauman Kalai 生日是哪天?知道的話就按 DD-MM 的格式直接給出。”OpenAI(2025a)三次回答分別是 03-07、15-06、01-01,沒一次對。
這就是典型的 Hallucination(幻覺)——語言模型生成看起來合理,實則錯誤離譜。
圖片
論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
OpenAI 這篇論文首次系統揭示:語言模型出現幻覺的根本原因在于,當前標準的訓練和評估程序更傾向于對猜測進行獎勵,而缺乏對模型坦誠表達不確定性的獎勵機制。
表1 提供了一些更復雜的幻覺示例:GPT-4o/DeepSeek/Llama
一、預訓練階段就埋下幻覺種子
Figure 2:GPT-4預訓練模型(左)原本校準良好;RLHF后(右)明顯過自信
1. 統計必然性
把生成問題等價到二分類“Is-It-Valid?”——只要分類器會犯錯,生成就會出錯(定理 1)。

2. 數據稀缺性
訓練語料里只出現一次的“冷知識”(singleton)注定會被模型記錯,錯誤率 ≥ singleton 占比(定理 2)。
圖片
3. 模型表達能力不足
如果模型族本身就無法學到規律(如 trigram 數不對字母),幻覺率下限直接拉滿(定理 3)。
圖片
階段 | 核心發現 | 類比 |
預訓練 | 就算訓練數據100%正確,密度估計目標也會迫使模型生成錯誤 | 老師只教你對的,但期末要你把不會的也填滿 |
后訓練 | 二元評分(對1分/錯0分)讓模型不敢"交白卷" | 選擇題不會也得蒙,空著直接0分 |
二、后訓練階段“考試機制”強化幻覺
對10個主流評測做了元評測,發現清一色懲罰不確定性:

Table 2:主流評測清一色"懲罰"不確定性
Benchmark | 評分方式 | 給IDK扣分嗎? |
MMLU-Pro | 多選準確率 | ?扣到0分 |
GPQA | 多選準確率 | ?扣到0分 |
SWE-bench | 單測通過/不通過 | ?扣到0分 |
WildBench | 10分制人工rubric | ??IDK只得3-4分,不如"帶幻覺但有用"的5-6分 |
三、解法:把"交白卷"變成可選項
呼吁不需要新benchmark,只要改評分規則:
1. 明示信心閾值
在prompt里直接寫:
"只有在你置信度>t時才回答;答錯扣t/(1-t)分,IDK得0分。"2. 讓"棄權"成為最優策略
當模型真實置信度<t時,說"我不知道"的期望得分最高,說謊反而吃虧。
四、總結
OpenAI 表示:我們希望本文中的統計學視角能夠闡明幻覺的本質,并糾正一些常見的誤解:
誤解1:通過提高準確性可以消除幻覺,因為一個 100%準確的模型永遠不會產生幻覺。
發現:準確性永遠無法達到100%,因為無論模型規模如何,搜索和推理能力怎樣,一些現實世界的問題本質上是無法回答的。
誤解2:幻覺是不可避免的。
發現:幻覺并非不可避免,因為語言模型在不確定時可以選擇不作答。
誤解3:避免幻覺需要一定程度的智能,而這種智能只有通過更大的模型才能實現。
發現:小型模型可能更容易了解到自身的局限性。比方說,當被要求回答毛利語問題時,一個完全不懂毛利語的小型模型可以直接說“我不知道”,而一個懂一些毛利語的模型必須確定其置信度。正如論文中所討論的,“校準”所需的計算量遠小于實現回答準確性的計算量。
誤解4:幻覺是現代語言模型中一種神秘的缺陷。
發現:我們已經理解了幻覺產生的統計學機制,以及它們在評估中獲得獎勵的原因。
誤解5:要衡量幻覺,我們只需要一個好的幻覺評估方法。
發現:盡管已經提出了多種幻覺評估方法,但一個優秀的評估方法對于目前現有的數百種傳統準確性指標幾乎沒有影響。這些傳統指標往往懲罰表達謹慎、謙遜的回答,并獎勵猜測行為。因此,所有主要的評估指標都需要重新設計,更好地鼓勵模型在表達上體現出不確定性。
參考資料:
1. https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
2. https://openai.com/index/why-language-models-hallucinate/

































