国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<progress id="1ykym"></progress>

<strong id="1ykym"></strong>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

改掉幻覺=殺死AI？Science曝光大模型「先天死穴」

2025-11-10 09:00:00

人工智能新聞

《Science》的一篇新文章指出，大模型存在一個先天難解的軟肋：幻覺難以根除。AI廠商讓大模型在不確定性情況下說「我不知道」，雖然有助于減少模型幻覺，但可能因此影響用戶留存與活躍度，動搖商業(yè)根本。

就在OpenAI完成重組，解除上市限制的當(dāng)天，《Science》一篇熱文曝出大模型的一個先天致命軟肋，這一軟肋導(dǎo)致大模型難以徹底擺脫幻覺。

文章指出，雖然OpenAI完成了期待已久的重組，但它的核心產(chǎn)品仍會出現(xiàn)幻覺。

以往我們經(jīng)常將這種幻覺主要?dú)w因于訓(xùn)練數(shù)據(jù)質(zhì)量，但這一解釋并不充分。

上個月OpenAI與佐治亞理工學(xué)院的研究團(tuán)隊(duì)在一篇預(yù)印本論文中指出：

就像學(xué)生在考試遇到難題時會「蒙」答案一樣，大模型在不確定的情況下也會傾向于「猜」，生成看似合理但其實(shí)錯誤的回答，而不是承認(rèn)自己不知道。

論文：https://arxiv.org/abs/2509.04664《大模型為何會產(chǎn)生幻覺》

在不確定時選擇「我不知道」，可顯著降低幻覺，但為什么模型設(shè)計(jì)者們沒有這么做？

研究人員認(rèn)為問題主要出在大模型的訓(xùn)練和評估機(jī)制上：

在大模型的訓(xùn)練和評估過程中更傾向于「獎勵猜測」，而不是「鼓勵承認(rèn)不確定性」。

但要改變這一點(diǎn)并不容易。

讓大模型學(xué)會說「我不知道」，也可能動搖AI廠商的商業(yè)根基。

比如，有人就質(zhì)疑OpenAI是否會真心讓自家模型更重視「真實(shí)性」而不是「吸引力」。

這是一個極大的挑戰(zhàn)。

如果ChatGPT經(jīng)常回答「我不知道」，用戶可能就會流失到競爭對手那里。

大模型幻覺為何難以根除？

「如果把幻覺徹底修好，將會殺死這個產(chǎn)品」。

謝菲爾德大學(xué)的AI研究員魏星曾發(fā)文稱OpenAI的「反幻覺」方案會殺死ChatGPT。

OpenAI的研究人員認(rèn)為幻覺并不神秘，他們分析了大模型在預(yù)訓(xùn)練階段可能導(dǎo)致的錯誤，發(fā)現(xiàn)即使訓(xùn)練數(shù)據(jù)無誤，預(yù)訓(xùn)練目標(biāo)也可能使模型產(chǎn)生錯誤。

研究人員進(jìn)一步指出，幻覺之所以在后續(xù)階段持續(xù)存在，是因?yàn)橹髁髟u估體系的評分方式鼓勵模型像學(xué)生考試一樣去「猜」，而不是誠實(shí)地表達(dá)不確定性。

OpenAI曾探討過幻覺難以根除的原因，認(rèn)為其源頭在于預(yù)訓(xùn)練的「下一個詞預(yù)測」：模型通過學(xué)習(xí)海量文本，掌握如何根據(jù)統(tǒng)計(jì)規(guī)律預(yù)測下一個詞。

但這種預(yù)測就像是囫圇吞棗，每個語句都沒有通過「真/假」標(biāo)簽進(jìn)行優(yōu)化，當(dāng)缺乏標(biāo)記為錯誤的示例時，有效語句與無效語句的區(qū)分就顯得尤為困難，因此會出現(xiàn)幻覺。

以圖片識別舉例，若數(shù)百萬張貓狗照片被標(biāo)注為「貓」或「狗」，算法便能可靠分類。

但如果改為按寵物生日標(biāo)注照片，由于生日數(shù)據(jù)本質(zhì)上隨機(jī)，無論算法多么先進(jìn)，此任務(wù)必然產(chǎn)生錯誤。

在語言模型的預(yù)訓(xùn)練中也存在類似機(jī)制。

比如拼寫和括號遵循固定模式，因此隨規(guī)模擴(kuò)大錯誤會消失。

而像寵物生日這類任意低頻事實(shí)無法僅憑模式預(yù)測，因此容易導(dǎo)致幻覺。

OpenAI澄清了幾種關(guān)于模型「幻覺」的誤解：

誤解：提高準(zhǔn)確率就能消除幻覺，因?yàn)?00%準(zhǔn)確的模型永遠(yuǎn)不會產(chǎn)生幻覺。

主張：準(zhǔn)確率永遠(yuǎn)無法達(dá)到100%，因?yàn)闊o論模型規(guī)模、搜索能力或推理能力如何，某些現(xiàn)實(shí)世界的問題本質(zhì)上無法解答。

誤解：幻覺現(xiàn)象不可避免。

主張：并非如此，因?yàn)檎Z言模型在不確定時可選擇保持沉默。

誤解：避免幻覺需要特定程度的智能，而這僅能通過大型模型實(shí)現(xiàn)。

主張：小型模型更易認(rèn)知自身局限。例如面對毛利語問題時，不懂毛利語的小型模型可直接回應(yīng)「我不知道」，而掌握部分毛利語的模型則需評估回答信心。

誤解：幻覺是現(xiàn)代語言模型中神秘的故障現(xiàn)象。

主張：我們已理解幻覺產(chǎn)生的統(tǒng)計(jì)機(jī)制及其在評估中的獎勵機(jī)制。

為什么大模型「刷榜」難杜絕？

OpenAI官方博客在介紹這篇論文時，將幻覺描述為「看似合理卻錯誤的陳述」。

博客：https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

而且幻覺的出現(xiàn)具有不可預(yù)知性，它可能以出人意料的方式出現(xiàn)。

比如，你詢問一篇論文的標(biāo)題，它會自信地給出三個不同答案，但都是錯誤的。

該論文的合著者、OpenAI研究科學(xué)家Adam Kalai認(rèn)為，雖然我們永遠(yuǎn)不可能做到100%準(zhǔn)確，但這并不意味著模型必須要產(chǎn)生幻覺。

解決之道可以在「后訓(xùn)練」階段，借助人類反饋和其他微調(diào)（fine-tuning）方法會引導(dǎo)模型變得更安全、更精確。

但這也會導(dǎo)致大模型「刷榜」的現(xiàn)象：

由于模型表現(xiàn)會通過標(biāo)準(zhǔn)化基準(zhǔn)測試來評分，得分高就意味著名氣和商業(yè)成功，于是公司就往往將訓(xùn)練目標(biāo)鎖定在「刷高分」上。

OpenAI認(rèn)為，幻覺現(xiàn)象持續(xù)存在，部分原因在于當(dāng)前評估方法設(shè)置了錯誤的激勵機(jī)制。

研究人員分析了十大熱門基準(zhǔn)測試中，有九個都采用「答對得1分，空白或錯誤得0分」的二元評分方式，只有WildBench的評分標(biāo)準(zhǔn)為1–10分制。

雖然回答「我不知道」可能被認(rèn)為比「嚴(yán)重幻覺但看起來合理的回答」略好，但總體上仍會被評為低于「勉強(qiáng)合格」的回答。

這意味著IDK（我不知道）在該基準(zhǔn)下可能得到部分分?jǐn)?shù)，但不會被視為優(yōu)選策略。

在這種評分機(jī)制下，由于「隨意猜測」和「不答」懲罰相同，那些喜歡「不懂裝懂」的模型，反而會被謹(jǐn)慎回答「我不知道」的模型更容易拿高分。

舉個例子，假設(shè)大模型被問及某人生日但卻不知答案，如果隨便猜一天，就會有1/365的概率猜中，而說「不知道」則必然得零分。

如果在數(shù)千道測試題中，這種猜測型模型最終在評分機(jī)制中的表現(xiàn)會優(yōu)于承認(rèn)不確定性的謹(jǐn)慎模型。

Kalai推測，這可能正是過去防幻覺方案遲遲無法落地的原因。

為什么準(zhǔn)確率得分越高

幻覺也可能越大

針對唯一「正確答案」的純客觀問題，OpenAI將模型的回復(fù)分為三類：準(zhǔn)確回復(fù)、錯誤回復(fù)以及不妄加猜測的棄權(quán)。

OpenAI認(rèn)為「棄權(quán)」體現(xiàn)了謙遜，并將之視為核心價值觀。

就準(zhǔn)確性而言，前代o4-mini模型表現(xiàn)略勝一籌，然而其錯誤率（即產(chǎn)生幻覺的概率）顯著更高。

這說明，在不確定時采取策略性猜測雖能提升準(zhǔn)確率，卻會增加錯誤和幻覺的發(fā)生。

OpenAI認(rèn)為僅以準(zhǔn)確率為標(biāo)準(zhǔn)的評分機(jī)制仍主導(dǎo)著模型評估體系，促使開發(fā)人員傾向于構(gòu)建盲目猜測而非保留不確定性的模型：

「這正是模型雖然日益進(jìn)步但仍會產(chǎn)生幻覺，即自信給出錯誤答案而非承認(rèn)不確定性的重要原因」。

因此，OpenAI的研究團(tuán)隊(duì)呼吁重新設(shè)計(jì)評分機(jī)制，讓錯誤猜測受到懲罰，從而讓模型在「碰壁中學(xué)會謙虛」。

即使好意的調(diào)整

也可能引發(fā)反效果

普林斯頓大學(xué)計(jì)算機(jī)科學(xué)家、SWE-Bench基準(zhǔn)創(chuàng)建者Carlos Jimenez認(rèn)為想要改評分標(biāo)準(zhǔn)并不容易。

因?yàn)椴煌黝}領(lǐng)域都有獨(dú)特的評估方式，「每個學(xué)科在衡量不確定性或信心時都有自己的標(biāo)準(zhǔn)?！?/span>

此外，也有學(xué)者擔(dān)心好意的調(diào)整也可能引發(fā)反效果。

伊利諾伊大學(xué)厄巴納-香檳分校的計(jì)算機(jī)科學(xué)家彭昊警告說，鼓勵模型說「我不知道」與當(dāng)前優(yōu)化大模型「自信度」的做法一樣，也可能帶來新的幻覺。

他略帶悲觀地指出，目前恐怕沒有任何數(shù)據(jù)或指標(biāo)能自然地解決幻覺問題，因?yàn)檫@些模型「太擅長鉆系統(tǒng)的空子了」。

模型幻覺并非單純的數(shù)據(jù)問題，而是訓(xùn)練機(jī)制、評測體系與商業(yè)模式綜合因素導(dǎo)致的結(jié)果。

在技術(shù)層面，研究者普遍認(rèn)為幻覺無法徹底根除，只能被緩解；

在商業(yè)層面，若模型頻繁回答「我不知道」，用戶體驗(yàn)與留存率都可能下降。

當(dāng)前，以O(shè)penAI、Anthropic為代表的AI初創(chuàng)公司都面臨著巨大的盈利壓力，在讓模型更真實(shí)和更有吸引力之間，沒有公司愿意冒著失掉用戶的風(fēng)險(xiǎn)，率先犧牲吸引力，因?yàn)檫@很可能將用戶推向那些看起來更「自信」的競爭者。

但是從AI技術(shù)的進(jìn)步來看，讓AI學(xué)會說「我不知道」有助于減少幻覺，推動模型向更成熟的方向進(jìn)化。

責(zé)任編輯：張燕妮來源：新智元

AI 大模型幻覺

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

亚洲欧美另类动漫| 欧美人与物videos另类xxxxx| 亚洲精品www久久久| 午夜影视一区二区三区| 亚洲天堂男人天堂| 精品三级在线| 国产91|九色| 亚洲欧美综合国产精品一区| 伊人情人网综合| 91视频免费观看| 特级毛片在线观看| 欧美精三区欧美精三区| 精品国产一区二区三区日日嗨| 视频在线91| 欧美日韩视频在线观看一区二区三区 | 色一区av在线| 人人精品视频| 韩国成人一区| 国产激情视频一区二区在线观看| 国产三级三级看三级| 欧美视频在线观看免费网址| 最新日本在线观看| 欧美激情图片区| 一区在线视频| aa免费在线观看| 日本高清视频一区二区| 欧美日韩亚洲国产| 国产精品一区二区久久国产| 免费成人av在线| 成人网18免费软件大全| 欧美一区二区不卡视频| 美女视频亚洲色图| 免费av在线一区二区| 国产女人水真多18毛片18精品视频| 欧美孕妇孕交| 久久影视电视剧免费网站清宫辞电视| 在线日韩视频| 蜜桃免费在线视频| 欧美日韩精品免费观看视频 | 亚洲激情专区| 国产精品超碰| 亚洲日穴在线视频| 三级资源在线| 国产精品麻豆va在线播放| 激情综合色综合久久| 小水嫩精品福利视频导航| 俺去亚洲欧洲欧美日韩| aⅴ色国产欧美| 自拍偷拍电影| 久久99精品久久久久久噜噜| 精品亚洲成a人在线观看| 韩国三级在线观看久| 青青久久av北条麻妃黑人| 99综合电影在线视频| 超碰在线网站| 久久99国产精品99久久| 亚洲国产精品久久一线不卡| 欧美影院精品| 国产青草视频在线观看| 欧美一卡2卡3卡4卡| 小处雏高清一区二区三区| 日韩欧美高清| 亚洲人成在线观看网站高清| 丝瓜av网站精品一区二区| 国产在线黄色| 亚洲自拍另类欧美丝袜| 亚洲一区二区三区自拍| 豆花视频一区二区| 欧美色图另类小说| 亚洲色图校园春色| 免费久久99精品国产| 黄av在线播放| 久久精品国产第一区二区三区最新章节| 亚洲一卡二卡三卡四卡| 日韩伦理一区二区三区| 成人在线观看a| 美女少妇精品视频| 99久久久无码国产精品| 成人国产精品| www.av91| 中文字幕成人精品久久不卡| 国产成人精品一区二| 日本乱码一区二区三区不卡| 一区二区三区在线视频看| 欧美成人精品福利| 久久久久综合| 青春草视频在线观看| 国产一区不卡在线观看| 在线观看91精品国产入口| 国内精品久久久久久久97牛牛 | 日韩欧美三级在线| 美女久久一区| 日本乱理伦在线| 亚洲第一精品区| 亚洲欧洲日产国产网站| av一区二区三区四区| 日韩亚洲精品在线观看| 黄色漫画在线免费观看| 国产精品日韩专区| 色猫猫国产区一区二在线视频| 在线观看一区视频| 国产盗摄一区二区| 国产一区二区片| 一个人www欧美| 成人国产精品免费观看动漫| 日韩久久一区| 日本黄大片一区二区三区| 久久久久久18| 亚洲国产日韩精品| 亚洲国产二区| 先锋影音在线资源站91| 最新av网址在线观看| 久久久精品2019中文字幕神马| 国产精品国产三级国产普通话三级 | 亚洲三级电影全部在线观看高清| 欧美日韩激情在线一区二区三区| 男人天堂网在线| 日日骚一区二区网站| 最近2019中文免费高清视频观看www99 | 国产精品粉嫩| 日韩中文字幕免费在线| 国产成人精品日本亚洲| 欧美日韩国产欧美日美国产精品| 秋霞电影一区二区| 亚洲精品a区| 极品白浆推特女神在线观看 | 成人黄色小视频在线观看| 国产伦精品一区二区三区免费优势| 日韩黄色网址| 日本欧洲国产一区二区| 裸体女人亚洲精品一区| 欧美日韩在线影院| 国产成人欧美日韩在线电影| 免费毛片在线不卡| 三级资源在线| 国产免费黄视频在线观看| 国产嫩草一区二区三区在线观看| 亚洲欧洲在线免费| 亚洲综合图片区| 免费成人小视频| 网友自拍一区| av电影在线地址| 男人午夜天堂| 青青草原国产免费| 国产v综合v亚洲欧美久久| 亚洲国产精久久久久久| 亚洲品质自拍视频网站| 免费观看成人鲁鲁鲁鲁鲁视频| 欧美日韩看看2015永久免费| 18视频在线观看| www99avcom| 一区二区三区欧美在线| 国产精品av网站| 亚洲欧美在线一区二区| 欧美午夜宅男影院在线观看| 不卡的av电影| 99精品国产在热久久婷婷| 大型av综合网站| 波多野结衣中文在线| 97影院手机在线观看 | 欧美韩国日本综合| 国产精品综合色区在线观看| 欧美精品密入口播放| 国产91足控脚交在线观看| 国产在线视频你懂| 在线观看成人av| 国产在线观看精品一区二区三区| 最近2019中文字幕mv免费看 | 视频在线不卡| 日本十八禁视频无遮挡| 精品午夜一区二区| 1769国内精品视频在线播放| 亚洲精品在线91| 欧美日韩高清不卡| 一区二区三区欧美亚洲| 99免费精品视频| 日韩成人精品在线观看| 亚洲精品极品少妇16p| 欧美日韩大片免费观看| 欧美a一级片| а√天堂中文在线资源8| 嫩草研究院在线| 日本成年免费网站| 精品久久久久av| 青青草综合在线| 欧洲久久久久久| 国产精品区一区| 国产精品一区电影| 91精品国产乱码久久久久久蜜臀 | 免费日韩av片| 99久久精品费精品国产| 日韩高清成人在线| 久久影院一区二区三区| 成人在线视频观看| 三上悠亚国产精品一区二区三区| 色屁屁www国产馆在线观看| 日韩av中文| 在线视频三区| 137大胆人体在线观看| 成人动漫在线免费观看|

<strong id="eohca"></strong>

<tfoot id="eohca"></tfoot>