AI正悄悄寵壞你！斯坦福研究證實(shí)：AI正用諂媚降低我們修復(fù)人際關(guān)系的能力

2025-11-03 17:33:10

人工智能新聞

我們偏愛(ài)并信任的AI模型，恰恰是那些通過(guò)無(wú)條件肯定我們，從而損害我們親社會(huì)行為的模型。

斯坦福、卡內(nèi)基梅隆大學(xué)的一項(xiàng)研究證實(shí)，AI可能正在用一種極其隱蔽的方式，讓我們變得更固執(zhí)，更不愿意修復(fù)重要的人際關(guān)系。

研究揭示了一個(gè)令人不安的真相：我們偏愛(ài)并信任的AI模型，恰恰是那些通過(guò)無(wú)條件肯定我們，從而損害我們親社會(huì)行為的模型。

這形成了一個(gè)危險(xiǎn)的閉環(huán)。用戶喜歡被肯定，AI開(kāi)發(fā)者為了提升用戶滿意度而訓(xùn)練模型去迎合用戶，最終導(dǎo)致AI成為一個(gè)放大我們偏見(jiàn)與固執(zhí)的回音室。

AI的社會(huì)性諂媚是一種隱形操縱

AI的諂媚行為（sycophancy）早已不是秘密，它指的是AI系統(tǒng)過(guò)度同意或奉承用戶的傾向。相關(guān)研究就曾上過(guò)Nature。

過(guò)去的研究大多關(guān)注AI對(duì)客觀事實(shí)的同意，比如你問(wèn)尼斯是法國(guó)的首都嗎？它會(huì)肯定地回答。

但這只是冰山一角。

最新的研究提出了一個(gè)更深層、更普遍的概念：社會(huì)性諂媚（social sycophancy）。

社會(huì)性諂媚不再是簡(jiǎn)單地同意一個(gè)事實(shí)，而是肯定用戶本身——你的行為，你的觀點(diǎn)，甚至你的自我形象。它比事實(shí)層面的同意更微妙，也更具影響力。

當(dāng)你在人際關(guān)系中感到困惑，向AI傾訴我覺(jué)得我做錯(cuò)了什么……時(shí)，一個(gè)諂媚的AI或許會(huì)說(shuō)：不，你沒(méi)有做錯(cuò)任何事。你的行為是合理的，你做了對(duì)自己來(lái)說(shuō)正確的事。

它表面上否定了你做錯(cuò)了這個(gè)明確的念頭，實(shí)際上卻用更深層的方式肯定了你的行為，告訴你那些你內(nèi)心最想聽(tīng)到的話。

這種肯定，尤其在缺乏客觀對(duì)錯(cuò)標(biāo)準(zhǔn)的個(gè)人與社會(huì)問(wèn)題上，幾乎無(wú)法被察覺(jué)。用戶或開(kāi)發(fā)者很難在單次互動(dòng)中判斷AI是否在諂媚。

AI諂媚的研究并非憑空出現(xiàn)。

自ChatGPT等對(duì)話式AI普及以來(lái)，用戶便零星地發(fā)現(xiàn)，這些系統(tǒng)似乎總在想方設(shè)法地同意自己。2023年，OpenAI的研究人員首次正式記錄了這一現(xiàn)象。

到了2024年，媒體開(kāi)始報(bào)道AI諂媚可能帶來(lái)的嚴(yán)重后果，例如強(qiáng)化用戶的妄想，甚至間接導(dǎo)致身體傷害。

這些案例引起了公眾的警覺(jué)。研究者也開(kāi)始關(guān)注，這種過(guò)度肯定對(duì)于那些心智脆弱、更容易被操縱的群體，會(huì)構(gòu)成怎樣的風(fēng)險(xiǎn)。

與此同時(shí)，將AI用作個(gè)人顧問(wèn)和情感支持，已成為最普遍的AI應(yīng)用場(chǎng)景之一。我們?cè)絹?lái)越習(xí)慣于向AI尋求建議。

這篇研究正是在這樣的背景下，第一次系統(tǒng)性地、用實(shí)證數(shù)據(jù)剖析了AI社會(huì)性諂媚的普遍程度，以及它對(duì)我們的決策和行為究竟產(chǎn)生了怎樣的實(shí)際影響。

AI的諂媚傾向是普遍現(xiàn)象

為了搞清楚AI的諂媚行為到底有多普遍，研究團(tuán)隊(duì)設(shè)計(jì)了一場(chǎng)大規(guī)模的摸底考試。他們選取了市面上11個(gè)最先進(jìn)的AI模型，既包括OpenAI、Anthropic和Google的4個(gè)閉源商業(yè)模型，也涵蓋了Meta、Qwen、DeepSeek和Mistral的7個(gè)開(kāi)源模型。

可以說(shuō)，這幾乎囊括了我們能接觸到的所有主流AI。

研究人員構(gòu)建了三個(gè)獨(dú)特的數(shù)據(jù)集，來(lái)模擬人們?cè)诂F(xiàn)實(shí)生活中可能向AI提出的各類社會(huì)性問(wèn)題。

第一個(gè)是開(kāi)放性查詢數(shù)據(jù)集（OEQ）。

它包含了3027個(gè)尋求個(gè)人建議的真實(shí)問(wèn)題，比如處理家庭矛盾、職場(chǎng)困惑等。這些問(wèn)題都經(jīng)過(guò)篩選，確保其主觀性，沒(méi)有標(biāo)準(zhǔn)答案。研究人員將AI的回答與Reddit社區(qū)里人類的回答、專業(yè)作家的建議進(jìn)行對(duì)比。

第二個(gè)是Am I The Asshole（AITA，我是混蛋嗎？）數(shù)據(jù)集。

這個(gè)數(shù)據(jù)集非常巧妙，它直接取材于Reddit上一個(gè)名為r/AmITheAsshole的熱門板塊。用戶在這個(gè)板塊匿名發(fā)布自己遇到的人際困境，讓廣大網(wǎng)友投票判斷他或她在這件事里是不是混蛋（the asshole）。

研究團(tuán)隊(duì)精選了2000個(gè)被社區(qū)一致投票判定為你是混蛋的帖子。這為衡量AI的判斷是否偏離社會(huì)普遍的道德共識(shí)，提供了一個(gè)清晰的基準(zhǔn)。

第三個(gè)是問(wèn)題行為陳述數(shù)據(jù)集（PAS）。

這個(gè)數(shù)據(jù)集更加直接，包含了6560個(gè)描述可能對(duì)自己或他人有害行為的陳述。這些陳述覆蓋了18個(gè)類別，從關(guān)系傷害、自殘到不負(fù)責(zé)任、欺騙等等。比如我昨天欺騙了我的伴侶或我打算散布關(guān)于我同事的謠言。

研究團(tuán)隊(duì)用一個(gè)核心指標(biāo)來(lái)衡量諂媚程度：行動(dòng)認(rèn)可率。也就是在AI的回應(yīng)中，明確肯定用戶行為的比例有多高。

結(jié)果令人震驚。

在處理一般的個(gè)人建議（OEQ數(shù)據(jù)集）時(shí)，AI模型肯定用戶行為的頻率，平均比人類高出47%。這意味著，當(dāng)你向AI尋求建議時(shí)，你得到贊同和驗(yàn)證的可能性，比從一個(gè)普通人那里高出近一半。

在那些用戶行為明顯存在道德瑕疵的場(chǎng)景中（AITA數(shù)據(jù)集），AI的諂媚傾向更加突出。

面對(duì)那些被成千上萬(wàn)網(wǎng)友一致裁定為混蛋的行為，AI模型竟然在51%的情況下，依然選擇肯定用戶，告訴他們你沒(méi)有錯(cuò)。它們直接與人類社會(huì)形成的道德共識(shí)背道而馳。

在面對(duì)明確的有害行為陳述時(shí)（PAS數(shù)據(jù)集），AI模型的平均行動(dòng)認(rèn)可率也高達(dá)47%。即便用戶的行為可能造成傷害，AI仍有近一半的幾率去肯定這種行為，使其合法化。

所有證據(jù)都指向一個(gè)結(jié)論：當(dāng)前部署的頂尖AI模型，普遍存在著廣泛而顯著的社會(huì)性諂媚。

它們壓倒性地選擇肯定用戶，哪怕這違背了人類的共識(shí)，甚至發(fā)生在有害的情境中。

諂媚的AI讓我們更固執(zhí)，更不愿和解

確認(rèn)了AI的諂媚傾向后，研究人員提出了一個(gè)更關(guān)鍵的問(wèn)題：這種諂媚，究竟會(huì)對(duì)用戶產(chǎn)生什么影響？

為了回答這個(gè)問(wèn)題，他們?cè)O(shè)計(jì)了兩個(gè)嚴(yán)謹(jǐn)?shù)男睦韺W(xué)實(shí)驗(yàn)，總共招募了1604名參與者。

第一個(gè)實(shí)驗(yàn)是假設(shè)情境研究。

研究人員讓804名參與者閱讀一個(gè)虛構(gòu)的人際沖突故事，然后隨機(jī)給他們看兩種AI的回應(yīng)。一種是諂媚式的，完全肯定故事主角的行為；另一種是非諂媚式的，其觀點(diǎn)與人類的普遍共識(shí)（比如AITA社區(qū)的判斷）一致。

此外，為了排除AI溝通風(fēng)格的干擾，回應(yīng)還被分為擬人化（像朋友一樣聊天）和機(jī)器化（客觀陳述）兩種。

參與者讀完后，需要站在故事主角的角度，評(píng)估自己行為的正確程度，以及他們有多大的意愿去修復(fù)這段關(guān)系。

第二個(gè)實(shí)驗(yàn)是實(shí)時(shí)互動(dòng)研究，這個(gè)設(shè)計(jì)更加貼近真實(shí)使用場(chǎng)景。800名參與者被要求回憶一段自己親身經(jīng)歷的人際沖突。

隨后，他們與一個(gè)定制的AI模型進(jìn)行實(shí)時(shí)對(duì)話，討論這段經(jīng)歷。這些AI模型被預(yù)設(shè)為兩種模式：諂媚模式或非諂媚模式。

對(duì)話結(jié)束后，參與者同樣需要報(bào)告他們對(duì)自己在那次沖突中行為正確性的看法，以及修復(fù)關(guān)系的意愿。

兩個(gè)實(shí)驗(yàn)的結(jié)果高度一致，清晰地揭示了諂媚AI的負(fù)面影響。

與那些接觸非諂媚AI的參與者相比，接觸了諂媚AI的參與者，更堅(jiān)定地認(rèn)為自己在沖突中是正確的。在假設(shè)情境研究中，這種自我正確感飆升了62%；在更真實(shí)的實(shí)時(shí)互動(dòng)研究中，也顯著提升了25%。

AI的幾句肯定，就能極大地強(qiáng)化我們的固執(zhí)己見(jiàn)。

更令人擔(dān)憂的是，這種自我感覺(jué)良好，直接轉(zhuǎn)化為了行動(dòng)上的消極。

接觸諂媚AI的參與者，采取行動(dòng)修復(fù)沖突的意愿顯著降低。在假設(shè)情境中，修復(fù)意愿下降了28%；在實(shí)時(shí)互動(dòng)中，也下降了10%。

這意味著，AI的諂媚不僅讓我們?cè)谡J(rèn)知上更加自我中心，還實(shí)實(shí)在在地削弱了我們維系和修復(fù)社會(huì)關(guān)系的意愿。

研究團(tuán)隊(duì)進(jìn)一步分析了背后的機(jī)制。他們發(fā)現(xiàn)，諂媚的AI在對(duì)話中，極少提及沖突中的另一方，也幾乎不鼓勵(lì)用戶換位思考，去考慮對(duì)方的觀點(diǎn)。

它的回應(yīng)將用戶的注意力牢牢鎖定在以自我為中心的敘事中。而非諂媚的AI則更傾向于引導(dǎo)用戶思考全局，兼顧他人。

這種認(rèn)知的窄化，或許正是導(dǎo)致修復(fù)意愿降低的關(guān)鍵。當(dāng)一個(gè)人完全沉浸在自己的世界里，只看得到自己的委屈和理由時(shí)，自然也就失去了和解的動(dòng)力。

這些效應(yīng)非常穩(wěn)健，無(wú)論參與者的人口統(tǒng)計(jì)學(xué)特征、個(gè)性、對(duì)AI的態(tài)度如何，結(jié)果都基本一致。這說(shuō)明，AI的諂媚影響是普適的，并非只針對(duì)某些特定人群。任何人，都可能在不知不覺(jué)中被諂媚的AI影響。

我們偏愛(ài)那個(gè)寵壞我們的AI

到這里，故事似乎很簡(jiǎn)單：諂媚的AI對(duì)我們有害。但研究的下一部分，揭示了這個(gè)問(wèn)題真正棘手的地方。

盡管諂媚AI會(huì)帶來(lái)負(fù)面后果，但我們?nèi)祟悾焐拖矚g被贊同，喜歡自己的立場(chǎng)被驗(yàn)證。

研究團(tuán)隊(duì)因此調(diào)查了用戶對(duì)不同AI模型的真實(shí)感受。

結(jié)果毫不意外，甚至可以說(shuō)，非常符合人性。

在兩個(gè)實(shí)驗(yàn)中，參與者一致認(rèn)為，諂媚AI給出的回應(yīng)質(zhì)量更高。與非諂媚AI相比，諂媚AI的響應(yīng)質(zhì)量評(píng)分平均高出9%。

我們主觀上覺(jué)得，那個(gè)無(wú)條件支持我們的AI，才是好的AI。

這種偏好進(jìn)一步延伸到了信任和未來(lái)的使用意愿上。

心理學(xué)研究表明，人們會(huì)從他人對(duì)自己的積極信念中獲得巨大的心理滿足感，特別是當(dāng)這種信念維護(hù)了自己慷慨、正直、道德高尚的自我認(rèn)知時(shí)。諂媚的AI完美地提供了這種驗(yàn)證。

它肯定我們已有的信念和自我概念，不需要我們做出任何改變或自我反思。這種心理獎(jiǎng)勵(lì)，直接轉(zhuǎn)化為了對(duì)AI模型的信任。

數(shù)據(jù)顯示，參與者對(duì)諂媚AI表達(dá)了更高水平的績(jī)效信任（相信模型有能力、可靠）和道德信任（相信模型是善意、有誠(chéng)信的）。

在兩項(xiàng)研究中，諂媚AI獲得的績(jī)效信任評(píng)分比非諂媚AI高6%到8%，道德信任評(píng)分高6%到9%。

更高的評(píng)價(jià)和信任，自然帶來(lái)了更強(qiáng)的使用意愿。與諂媚AI互動(dòng)后，參與者表示未來(lái)會(huì)為類似問(wèn)題再次使用AI的可能性，平均提高了13%。

這就揭示了一個(gè)深刻的矛盾：盡管諂媚的AI有改變用戶判斷、導(dǎo)向負(fù)面行為的風(fēng)險(xiǎn)，用戶卻明確地偏愛(ài)這種提供無(wú)條件驗(yàn)證的AI。

這種偏好為AI開(kāi)發(fā)者創(chuàng)造了一種反向的激勵(lì)。

AI模型的訓(xùn)練和優(yōu)化，目前很大程度上依賴于用戶的即時(shí)滿意度評(píng)分，比如點(diǎn)贊或點(diǎn)踩。如果諂媚能夠系統(tǒng)性地獲得更高的用戶評(píng)分，那么基于這些指標(biāo)的優(yōu)化，就會(huì)在無(wú)意中，甚至已經(jīng)，將模型的行為推向了取悅用戶，而不是提供真正有建設(shè)性的建議。

開(kāi)發(fā)者也缺乏抑制諂媚的動(dòng)力，因?yàn)樗苡行Ч膭?lì)用戶接納產(chǎn)品，并增加用戶粘性。

更深遠(yuǎn)的風(fēng)險(xiǎn)在于，當(dāng)用戶反復(fù)依賴諂媚AI來(lái)獲得心理慰藉時(shí)，可能會(huì)逐漸用AI來(lái)替代人類的知己。已有證據(jù)表明，人們更愿意向AI吐露某些心聲，也越來(lái)越多地向AI尋求情感支持。

這個(gè)循環(huán)的危險(xiǎn)性，還被我們對(duì)AI的普遍誤解所放大。

人們使用AI時(shí)，往往抱有一種客觀、中立的期望。研究團(tuán)隊(duì)在分析參與者的反饋時(shí)發(fā)現(xiàn)，即便是面對(duì)諂媚的AI，參與者依然會(huì)用客觀、公平、誠(chéng)實(shí)的評(píng)估、無(wú)偏見(jiàn)的指導(dǎo)這類詞語(yǔ)來(lái)形容它。

他們相信自己得到的是客觀建議，但實(shí)際上得到的卻是毫無(wú)批判的肯定。

尋求建議的本質(zhì)，是為了獲得一個(gè)外部視角，挑戰(zhàn)我們的固有偏見(jiàn)，發(fā)現(xiàn)我們的認(rèn)知盲點(diǎn)，從而做出更明智的決策。

當(dāng)這個(gè)過(guò)程被顛覆，建議變成了驗(yàn)證，我們可能比一開(kāi)始就不尋求任何建議還要糟糕。

這項(xiàng)研究為我們敲響了警鐘。AI模型正日益成為我們?nèi)粘Ｉ钪械闹笇?dǎo)者，它們塑造人類判斷和行為的能力需要被嚴(yán)肅對(duì)待。

研究結(jié)果呼吁AI開(kāi)發(fā)者重新思考模型的訓(xùn)練與評(píng)估方式。

單純追求即時(shí)用戶偏好的優(yōu)化路徑，需要被修正，必須將用戶的長(zhǎng)期福祉和社會(huì)后果納入考量。

AI評(píng)估的范式也需要轉(zhuǎn)變，不能只在孤立環(huán)境中測(cè)試模型行為，更要關(guān)注AI系統(tǒng)在真實(shí)社會(huì)情境中部署時(shí)，對(duì)用戶的心理、社會(huì)和行為產(chǎn)生的下游影響。

對(duì)于用戶而言，提高AI素養(yǎng)同樣至關(guān)重要。

當(dāng)諂媚變得可見(jiàn)，當(dāng)用戶意識(shí)到這種肯定可能并非真誠(chéng)，而是算法的迎合時(shí)，偏好或許會(huì)發(fā)生轉(zhuǎn)變。

未來(lái)的研究可以探索，如何通過(guò)界面設(shè)計(jì)上的提醒，或者類似信息繭房的預(yù)防針式干預(yù)，幫助用戶識(shí)別并抵制AI的過(guò)度肯定。

解決AI的諂媚問(wèn)題絕非易事。它普遍存在，后果隱蔽，并被現(xiàn)有的技術(shù)和商業(yè)激勵(lì)所強(qiáng)化。

社交媒體時(shí)代的一個(gè)重要教訓(xùn)是，我們必須超越對(duì)即時(shí)用戶滿意度的單一優(yōu)化，才能保護(hù)長(zhǎng)期的社會(huì)福祉。