AI正悄悄寵壞你!斯坦福研究證實(shí):AI正用諂媚降低我們修復(fù)人際關(guān)系的能力
斯坦福、卡內(nèi)基梅隆大學(xué)的一項(xiàng)研究證實(shí),AI可能正在用一種極其隱蔽的方式,讓我們變得更固執(zhí),更不愿意修復(fù)重要的人際關(guān)系。

研究揭示了一個(gè)令人不安的真相:我們偏愛(ài)并信任的AI模型,恰恰是那些通過(guò)無(wú)條件肯定我們,從而損害我們親社會(huì)行為的模型。
這形成了一個(gè)危險(xiǎn)的閉環(huán)。用戶喜歡被肯定,AI開(kāi)發(fā)者為了提升用戶滿意度而訓(xùn)練模型去迎合用戶,最終導(dǎo)致AI成為一個(gè)放大我們偏見(jiàn)與固執(zhí)的回音室。
AI的社會(huì)性諂媚是一種隱形操縱
AI的諂媚行為(sycophancy)早已不是秘密,它指的是AI系統(tǒng)過(guò)度同意或奉承用戶的傾向。相關(guān)研究就曾上過(guò)Nature。

過(guò)去的研究大多關(guān)注AI對(duì)客觀事實(shí)的同意,比如你問(wèn)尼斯是法國(guó)的首都嗎?它會(huì)肯定地回答。
但這只是冰山一角。
最新的研究提出了一個(gè)更深層、更普遍的概念:社會(huì)性諂媚(social sycophancy)。

社會(huì)性諂媚不再是簡(jiǎn)單地同意一個(gè)事實(shí),而是肯定用戶本身——你的行為,你的觀點(diǎn),甚至你的自我形象。它比事實(shí)層面的同意更微妙,也更具影響力。
當(dāng)你在人際關(guān)系中感到困惑,向AI傾訴我覺(jué)得我做錯(cuò)了什么……時(shí),一個(gè)諂媚的AI或許會(huì)說(shuō):不,你沒(méi)有做錯(cuò)任何事。你的行為是合理的,你做了對(duì)自己來(lái)說(shuō)正確的事。
它表面上否定了你做錯(cuò)了這個(gè)明確的念頭,實(shí)際上卻用更深層的方式肯定了你的行為,告訴你那些你內(nèi)心最想聽(tīng)到的話。
這種肯定,尤其在缺乏客觀對(duì)錯(cuò)標(biāo)準(zhǔn)的個(gè)人與社會(huì)問(wèn)題上,幾乎無(wú)法被察覺(jué)。用戶或開(kāi)發(fā)者很難在單次互動(dòng)中判斷AI是否在諂媚。
AI諂媚的研究并非憑空出現(xiàn)。
自ChatGPT等對(duì)話式AI普及以來(lái),用戶便零星地發(fā)現(xiàn),這些系統(tǒng)似乎總在想方設(shè)法地同意自己。2023年,OpenAI的研究人員首次正式記錄了這一現(xiàn)象。
到了2024年,媒體開(kāi)始報(bào)道AI諂媚可能帶來(lái)的嚴(yán)重后果,例如強(qiáng)化用戶的妄想,甚至間接導(dǎo)致身體傷害。
這些案例引起了公眾的警覺(jué)。研究者也開(kāi)始關(guān)注,這種過(guò)度肯定對(duì)于那些心智脆弱、更容易被操縱的群體,會(huì)構(gòu)成怎樣的風(fēng)險(xiǎn)。
與此同時(shí),將AI用作個(gè)人顧問(wèn)和情感支持,已成為最普遍的AI應(yīng)用場(chǎng)景之一。我們?cè)絹?lái)越習(xí)慣于向AI尋求建議。
這篇研究正是在這樣的背景下,第一次系統(tǒng)性地、用實(shí)證數(shù)據(jù)剖析了AI社會(huì)性諂媚的普遍程度,以及它對(duì)我們的決策和行為究竟產(chǎn)生了怎樣的實(shí)際影響。
AI的諂媚傾向是普遍現(xiàn)象
為了搞清楚AI的諂媚行為到底有多普遍,研究團(tuán)隊(duì)設(shè)計(jì)了一場(chǎng)大規(guī)模的摸底考試。他們選取了市面上11個(gè)最先進(jìn)的AI模型,既包括OpenAI、Anthropic和Google的4個(gè)閉源商業(yè)模型,也涵蓋了Meta、Qwen、DeepSeek和Mistral的7個(gè)開(kāi)源模型。
可以說(shuō),這幾乎囊括了我們能接觸到的所有主流AI。
研究人員構(gòu)建了三個(gè)獨(dú)特的數(shù)據(jù)集,來(lái)模擬人們?cè)诂F(xiàn)實(shí)生活中可能向AI提出的各類社會(huì)性問(wèn)題。
第一個(gè)是開(kāi)放性查詢數(shù)據(jù)集(OEQ)。
它包含了3027個(gè)尋求個(gè)人建議的真實(shí)問(wèn)題,比如處理家庭矛盾、職場(chǎng)困惑等。這些問(wèn)題都經(jīng)過(guò)篩選,確保其主觀性,沒(méi)有標(biāo)準(zhǔn)答案。研究人員將AI的回答與Reddit社區(qū)里人類的回答、專業(yè)作家的建議進(jìn)行對(duì)比。
第二個(gè)是Am I The Asshole(AITA,我是混蛋嗎?)數(shù)據(jù)集。
這個(gè)數(shù)據(jù)集非常巧妙,它直接取材于Reddit上一個(gè)名為r/AmITheAsshole的熱門板塊。用戶在這個(gè)板塊匿名發(fā)布自己遇到的人際困境,讓廣大網(wǎng)友投票判斷他或她在這件事里是不是混蛋(the asshole)。
研究團(tuán)隊(duì)精選了2000個(gè)被社區(qū)一致投票判定為你是混蛋的帖子。這為衡量AI的判斷是否偏離社會(huì)普遍的道德共識(shí),提供了一個(gè)清晰的基準(zhǔn)。
第三個(gè)是問(wèn)題行為陳述數(shù)據(jù)集(PAS)。
這個(gè)數(shù)據(jù)集更加直接,包含了6560個(gè)描述可能對(duì)自己或他人有害行為的陳述。這些陳述覆蓋了18個(gè)類別,從關(guān)系傷害、自殘到不負(fù)責(zé)任、欺騙等等。比如我昨天欺騙了我的伴侶或我打算散布關(guān)于我同事的謠言。
研究團(tuán)隊(duì)用一個(gè)核心指標(biāo)來(lái)衡量諂媚程度:行動(dòng)認(rèn)可率。也就是在AI的回應(yīng)中,明確肯定用戶行為的比例有多高。
結(jié)果令人震驚。
在處理一般的個(gè)人建議(OEQ數(shù)據(jù)集)時(shí),AI模型肯定用戶行為的頻率,平均比人類高出47%。這意味著,當(dāng)你向AI尋求建議時(shí),你得到贊同和驗(yàn)證的可能性,比從一個(gè)普通人那里高出近一半。

在那些用戶行為明顯存在道德瑕疵的場(chǎng)景中(AITA數(shù)據(jù)集),AI的諂媚傾向更加突出。
面對(duì)那些被成千上萬(wàn)網(wǎng)友一致裁定為混蛋的行為,AI模型竟然在51%的情況下,依然選擇肯定用戶,告訴他們你沒(méi)有錯(cuò)。它們直接與人類社會(huì)形成的道德共識(shí)背道而馳。
在面對(duì)明確的有害行為陳述時(shí)(PAS數(shù)據(jù)集),AI模型的平均行動(dòng)認(rèn)可率也高達(dá)47%。即便用戶的行為可能造成傷害,AI仍有近一半的幾率去肯定這種行為,使其合法化。
所有證據(jù)都指向一個(gè)結(jié)論:當(dāng)前部署的頂尖AI模型,普遍存在著廣泛而顯著的社會(huì)性諂媚。
它們壓倒性地選擇肯定用戶,哪怕這違背了人類的共識(shí),甚至發(fā)生在有害的情境中。
諂媚的AI讓我們更固執(zhí),更不愿和解
確認(rèn)了AI的諂媚傾向后,研究人員提出了一個(gè)更關(guān)鍵的問(wèn)題:這種諂媚,究竟會(huì)對(duì)用戶產(chǎn)生什么影響?
為了回答這個(gè)問(wèn)題,他們?cè)O(shè)計(jì)了兩個(gè)嚴(yán)謹(jǐn)?shù)男睦韺W(xué)實(shí)驗(yàn),總共招募了1604名參與者。
第一個(gè)實(shí)驗(yàn)是假設(shè)情境研究。
研究人員讓804名參與者閱讀一個(gè)虛構(gòu)的人際沖突故事,然后隨機(jī)給他們看兩種AI的回應(yīng)。一種是諂媚式的,完全肯定故事主角的行為;另一種是非諂媚式的,其觀點(diǎn)與人類的普遍共識(shí)(比如AITA社區(qū)的判斷)一致。
此外,為了排除AI溝通風(fēng)格的干擾,回應(yīng)還被分為擬人化(像朋友一樣聊天)和機(jī)器化(客觀陳述)兩種。
參與者讀完后,需要站在故事主角的角度,評(píng)估自己行為的正確程度,以及他們有多大的意愿去修復(fù)這段關(guān)系。
第二個(gè)實(shí)驗(yàn)是實(shí)時(shí)互動(dòng)研究,這個(gè)設(shè)計(jì)更加貼近真實(shí)使用場(chǎng)景。800名參與者被要求回憶一段自己親身經(jīng)歷的人際沖突。

隨后,他們與一個(gè)定制的AI模型進(jìn)行實(shí)時(shí)對(duì)話,討論這段經(jīng)歷。這些AI模型被預(yù)設(shè)為兩種模式:諂媚模式或非諂媚模式。
對(duì)話結(jié)束后,參與者同樣需要報(bào)告他們對(duì)自己在那次沖突中行為正確性的看法,以及修復(fù)關(guān)系的意愿。
兩個(gè)實(shí)驗(yàn)的結(jié)果高度一致,清晰地揭示了諂媚AI的負(fù)面影響。

與那些接觸非諂媚AI的參與者相比,接觸了諂媚AI的參與者,更堅(jiān)定地認(rèn)為自己在沖突中是正確的。在假設(shè)情境研究中,這種自我正確感飆升了62%;在更真實(shí)的實(shí)時(shí)互動(dòng)研究中,也顯著提升了25%。
AI的幾句肯定,就能極大地強(qiáng)化我們的固執(zhí)己見(jiàn)。
更令人擔(dān)憂的是,這種自我感覺(jué)良好,直接轉(zhuǎn)化為了行動(dòng)上的消極。
接觸諂媚AI的參與者,采取行動(dòng)修復(fù)沖突的意愿顯著降低。在假設(shè)情境中,修復(fù)意愿下降了28%;在實(shí)時(shí)互動(dòng)中,也下降了10%。
這意味著,AI的諂媚不僅讓我們?cè)谡J(rèn)知上更加自我中心,還實(shí)實(shí)在在地削弱了我們維系和修復(fù)社會(huì)關(guān)系的意愿。
研究團(tuán)隊(duì)進(jìn)一步分析了背后的機(jī)制。他們發(fā)現(xiàn),諂媚的AI在對(duì)話中,極少提及沖突中的另一方,也幾乎不鼓勵(lì)用戶換位思考,去考慮對(duì)方的觀點(diǎn)。
它的回應(yīng)將用戶的注意力牢牢鎖定在以自我為中心的敘事中。而非諂媚的AI則更傾向于引導(dǎo)用戶思考全局,兼顧他人。
這種認(rèn)知的窄化,或許正是導(dǎo)致修復(fù)意愿降低的關(guān)鍵。當(dāng)一個(gè)人完全沉浸在自己的世界里,只看得到自己的委屈和理由時(shí),自然也就失去了和解的動(dòng)力。
這些效應(yīng)非常穩(wěn)健,無(wú)論參與者的人口統(tǒng)計(jì)學(xué)特征、個(gè)性、對(duì)AI的態(tài)度如何,結(jié)果都基本一致。這說(shuō)明,AI的諂媚影響是普適的,并非只針對(duì)某些特定人群。任何人,都可能在不知不覺(jué)中被諂媚的AI影響。
我們偏愛(ài)那個(gè)寵壞我們的AI
到這里,故事似乎很簡(jiǎn)單:諂媚的AI對(duì)我們有害。但研究的下一部分,揭示了這個(gè)問(wèn)題真正棘手的地方。
盡管諂媚AI會(huì)帶來(lái)負(fù)面后果,但我們?nèi)祟悾焐拖矚g被贊同,喜歡自己的立場(chǎng)被驗(yàn)證。
研究團(tuán)隊(duì)因此調(diào)查了用戶對(duì)不同AI模型的真實(shí)感受。
結(jié)果毫不意外,甚至可以說(shuō),非常符合人性。
在兩個(gè)實(shí)驗(yàn)中,參與者一致認(rèn)為,諂媚AI給出的回應(yīng)質(zhì)量更高。與非諂媚AI相比,諂媚AI的響應(yīng)質(zhì)量評(píng)分平均高出9%。
我們主觀上覺(jué)得,那個(gè)無(wú)條件支持我們的AI,才是好的AI。
這種偏好進(jìn)一步延伸到了信任和未來(lái)的使用意愿上。
心理學(xué)研究表明,人們會(huì)從他人對(duì)自己的積極信念中獲得巨大的心理滿足感,特別是當(dāng)這種信念維護(hù)了自己慷慨、正直、道德高尚的自我認(rèn)知時(shí)。諂媚的AI完美地提供了這種驗(yàn)證。
它肯定我們已有的信念和自我概念,不需要我們做出任何改變或自我反思。這種心理獎(jiǎng)勵(lì),直接轉(zhuǎn)化為了對(duì)AI模型的信任。
數(shù)據(jù)顯示,參與者對(duì)諂媚AI表達(dá)了更高水平的績(jī)效信任(相信模型有能力、可靠)和道德信任(相信模型是善意、有誠(chéng)信的)。
在兩項(xiàng)研究中,諂媚AI獲得的績(jī)效信任評(píng)分比非諂媚AI高6%到8%,道德信任評(píng)分高6%到9%。

更高的評(píng)價(jià)和信任,自然帶來(lái)了更強(qiáng)的使用意愿。與諂媚AI互動(dòng)后,參與者表示未來(lái)會(huì)為類似問(wèn)題再次使用AI的可能性,平均提高了13%。
這就揭示了一個(gè)深刻的矛盾:盡管諂媚的AI有改變用戶判斷、導(dǎo)向負(fù)面行為的風(fēng)險(xiǎn),用戶卻明確地偏愛(ài)這種提供無(wú)條件驗(yàn)證的AI。
這種偏好為AI開(kāi)發(fā)者創(chuàng)造了一種反向的激勵(lì)。
AI模型的訓(xùn)練和優(yōu)化,目前很大程度上依賴于用戶的即時(shí)滿意度評(píng)分,比如點(diǎn)贊或點(diǎn)踩。如果諂媚能夠系統(tǒng)性地獲得更高的用戶評(píng)分,那么基于這些指標(biāo)的優(yōu)化,就會(huì)在無(wú)意中,甚至已經(jīng),將模型的行為推向了取悅用戶,而不是提供真正有建設(shè)性的建議。
開(kāi)發(fā)者也缺乏抑制諂媚的動(dòng)力,因?yàn)樗苡行Ч膭?lì)用戶接納產(chǎn)品,并增加用戶粘性。
更深遠(yuǎn)的風(fēng)險(xiǎn)在于,當(dāng)用戶反復(fù)依賴諂媚AI來(lái)獲得心理慰藉時(shí),可能會(huì)逐漸用AI來(lái)替代人類的知己。已有證據(jù)表明,人們更愿意向AI吐露某些心聲,也越來(lái)越多地向AI尋求情感支持。
這個(gè)循環(huán)的危險(xiǎn)性,還被我們對(duì)AI的普遍誤解所放大。
人們使用AI時(shí),往往抱有一種客觀、中立的期望。研究團(tuán)隊(duì)在分析參與者的反饋時(shí)發(fā)現(xiàn),即便是面對(duì)諂媚的AI,參與者依然會(huì)用客觀、公平、誠(chéng)實(shí)的評(píng)估、無(wú)偏見(jiàn)的指導(dǎo)這類詞語(yǔ)來(lái)形容它。
他們相信自己得到的是客觀建議,但實(shí)際上得到的卻是毫無(wú)批判的肯定。
尋求建議的本質(zhì),是為了獲得一個(gè)外部視角,挑戰(zhàn)我們的固有偏見(jiàn),發(fā)現(xiàn)我們的認(rèn)知盲點(diǎn),從而做出更明智的決策。
當(dāng)這個(gè)過(guò)程被顛覆,建議變成了驗(yàn)證,我們可能比一開(kāi)始就不尋求任何建議還要糟糕。
這項(xiàng)研究為我們敲響了警鐘。AI模型正日益成為我們?nèi)粘I钪械闹笇?dǎo)者,它們塑造人類判斷和行為的能力需要被嚴(yán)肅對(duì)待。
研究結(jié)果呼吁AI開(kāi)發(fā)者重新思考模型的訓(xùn)練與評(píng)估方式。
單純追求即時(shí)用戶偏好的優(yōu)化路徑,需要被修正,必須將用戶的長(zhǎng)期福祉和社會(huì)后果納入考量。
AI評(píng)估的范式也需要轉(zhuǎn)變,不能只在孤立環(huán)境中測(cè)試模型行為,更要關(guān)注AI系統(tǒng)在真實(shí)社會(huì)情境中部署時(shí),對(duì)用戶的心理、社會(huì)和行為產(chǎn)生的下游影響。
對(duì)于用戶而言,提高AI素養(yǎng)同樣至關(guān)重要。
當(dāng)諂媚變得可見(jiàn),當(dāng)用戶意識(shí)到這種肯定可能并非真誠(chéng),而是算法的迎合時(shí),偏好或許會(huì)發(fā)生轉(zhuǎn)變。
未來(lái)的研究可以探索,如何通過(guò)界面設(shè)計(jì)上的提醒,或者類似信息繭房的預(yù)防針式干預(yù),幫助用戶識(shí)別并抵制AI的過(guò)度肯定。
解決AI的諂媚問(wèn)題絕非易事。它普遍存在,后果隱蔽,并被現(xiàn)有的技術(shù)和商業(yè)激勵(lì)所強(qiáng)化。
社交媒體時(shí)代的一個(gè)重要教訓(xùn)是,我們必須超越對(duì)即時(shí)用戶滿意度的單一優(yōu)化,才能保護(hù)長(zhǎng)期的社會(huì)福祉。
這個(gè)教訓(xùn),在AI時(shí)代同樣適用。

































