AI「cosplay」關鍵在人設！復旦、人大等發布大五人格+MBTI測試：特質還原率達82.8%，拒絕OOC

作者：新智元 2023-11-20 22:08:49

人工智能新聞

良好的人設還原度是AI角色扮演的關鍵，研究人員對大五人格的NEO-FFI問卷和MBTI的16Personalities進行了改寫，利用LLM將其中的問題從陳述句改寫為了引導開放式問答的提問句，對AI角色進行測試。

想和喜歡的動漫小說角色聊天？想要一個虛擬伴侶？想要自己的數字智能體？

隨著大語言模型（Large Language Models, LLM）的發展，這些過去的幻想似乎越來越近了。

Character AI、Chat 涼宮春日、病嬌AI女友模擬器……基于大語言模型的角色扮演聊天機器人已經吸引了全世界用戶的關注。

比起過去需要大量工程來構建、服務于特定場景的傳統聊天機器人（如微軟小冰），最近的大語言模型可以輕易地構建具備不同身份、人格、記憶、語言習慣的角色扮演AI，只需簡單的提示工程、記憶機制。因此，用于角色扮演的AI越來越受歡迎。

盡管如此，對角色扮演AI的分析性研究仍相當匱乏，尤其是在對它們的評估上。如何評估AI的角色扮演做得好不好？

在二次元的cosplay圈和同人創作圈都強調，不能「不符合人設（out-of-character, OOC）」。

可見，是否良好還原角色，是評價角色扮演AI的關鍵維度。

近日，復旦大學、中國人民大學聯合Chat涼宮春日團隊發布論文，從人格特質角度對角色扮演AI是否還原進行了研究。

論文鏈接：https://arxiv.org/pdf/2310.17976.pdf

項目鏈接： https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main/research/personality

在本文中，研究者基于大五人格、MBTI等心理學的人格相關理論，對角色扮演AI進行了人格測試。

研究者提出了一套為角色扮演AI設計的面談式人格測試框架，基于人格測試量表與角色扮演AI展開開放式問答，并利用LLM或16Personalities API來預測角色扮演AI的人格特質，并與人類粉絲廣泛認可的性格標簽進行比較。

實驗結果表明，現有角色扮演AI對角色人格特質的還原率達到了82.8%

方法概述

基于開放問答的面談式人格測試

盡管現有LLM離人類智能還存在較大差距，它們仍然可以從心理學角度被視為一套經典的「刺激-響應」系統。

因此，心理學人格研究的范式可以很好地被用來研究LLM的行為模式[1]。一些近期的研究已探討了LLM是否具有穩定一致的性格特征[2]，并嘗試了定制具有指定性格的AI[3]。

這些通常使用一個具有60或更多道問題的量表問卷，從不同維度對LLM進行人格測試。比如，大五人格包含開放性、情緒不穩定性、盡責性、宜人性和外向性等五個維度，而MBTI包含外向/內向、感覺/直覺、思維/情感、判斷/知覺四個維度。

現有工作一般采用Likert Scale，即引導人類被試或LLM從五個或七個不同等級的選項中選擇一個，如「非常同意」、「同意」、「中立」、「不同意」、「非常不同意」。

然而，這種方式對于角色扮演AI存在許多不足：

1. 雖然給出選項對人類被試更加高效，但這種方式與開放式問答相比僅提供了非常有限的信息；

2. 選項式的問答不能良好激發角色扮演AI的扮演行為，且容易被底座LLM的訓練數據影響，導致得到與角色扮演AI不符的選項；

3. 有趣的是，一些性格鮮明的角色可能拒絕配合給出選項，因為它們很好地還原了角色性格。

因此，研究者提出了一套為角色扮演AI設計的面談式人格測試框架，通過對量表問題的開放式問答來進行人格測試。

研究者對大五人格的NEO-FFI問卷和MBTI的16Personalities進行了改寫，利用LLM將其中的問題從陳述句改寫為了引導開放式問答的提問句，得到一份新的量表問卷。

陳述式題目

問答式題目

研究者對ChatHaruhi的32個角色扮演AI（基于gpt-3.5-turbo作為底座模型）進行了面談式人格測試。

對于每個目標角色AI，研究者設定了一名它的相關角色作為實驗員，從最終的量表問卷中依次選擇問題，對目標角色進行提問，而角色AI將給出開放式的回答作為答案。

每個問題在不同的上下文中被提出，以避免它們之間的相互影響。之后，每個角色在每個量表的所有問答對被記錄下來，作為人格評估的依據。

對角色扮演AI的量表問題開放式問答案例

基于角色在量表問題上的問答結果，有兩種方法對角色的人格特質進行評估。一種是像現有工作一樣，將角色AI的回答轉化回Likert Scale的選項，再通過16 Personalities這樣的API進行人格評估。

這篇研究中提出了另一種方法，即讓GPT-4或ChatGPT等LLM來對角色AI基于問答對進行人格評估。

研究者將角色AI在量表問卷上的問答對按不同維度進行劃分，將每個維度的問答對一次全部或分為多組依次輸入LLM，獲得角色AI在該維度上的得分。

在大五人格上，角色AI會在每個維度得到一個-5到5之間的分數；在MBTI上，角色AI會在每個維度上得到兩個和為100%的分數，如30% E / 70% I，并被預測為分數大于50%的類別。

實驗結果

不同角色扮演AI的大五人格測試結果

上圖展示了ChatHaruhi中的32個角色扮演AI在大五人格量表上的測試結果。結果表明，角色扮演AI能夠根據不同角色展現出多樣性的人格特質。

不過，它們的人格特質同時也很大程度上受底座LLM的「本底人格」的先驗影響。比如，角色扮演AI在「情緒不穩定性」維度上的平均得分是-1.69，而在「盡責性」上則是1.56。

研究者猜測，這既有角色選取的先驗偏差，也有底座模型的影響，因為ChatGPT等LLM被訓練為傾向于給出詳盡、有幫助、積極的回答。

為了研究這一點，研究者比較了32個角色扮演AI的平均人格得分和底座模型本身的人格得分，并選取了ChatGPT和GLMPro作為兩個不同的底座模型。

根據上圖的結果，可以看出，在「情緒不穩定性」（neoruticism）維度上，角色扮演AI的平均得分和本底模型較為一致，而在其他維度上沒有看到明顯的相應關聯。

不同角色扮演AI的MBTI測試結果

研究者同時也對角色扮演AI進行了MBTI測試，并與網上收集的性格標簽進行比較。大部分性格標簽來源于www.personality-database.com，大量粉絲用戶在該網站上對角色的MBTI性格進行投票，并可以看到每個維度的投票比例。

研究者將投票比例在40%-60%的標簽視為「爭議性」標簽，在計算準確率時不予考慮。圖中紅字表示預測錯誤的維度，粉字表示預測錯誤但標簽本身有爭議的維度。

隨后，研究者計算了角色扮演AI的人格測試結果的準確率，即其與粉絲標簽的一致性。

注意，影響準確率的有兩個因素：角色扮演AI本身的性能，及人格測試方法的有效性。這里的實驗著重分析人格測試方法的有效性，因此控制角色扮演AI均為以gpt-3.5-turbo為底座的ChatHaruhi模型。

角色扮演AI的人格測試結果的準確率

實驗結果表明，本研究中提出的人格測試方法在ChatHaruhi的角色扮演AI上的測試結果與人類粉絲標簽在單一維度上的一致率為82.76%，并有50%的準確率預測對該角色的完整MBTI標簽。

該結果即說明本文提出的人格測試方法的有效性，同時也體現出現有角色扮演AI可以有效還原相應角色的人格特質。

總結

這篇工作從人格測試的角度評估了角色扮演AI的還原性。文章提出了一套用于角色扮演AI的人格測試框架，包括對角色扮演AI進行量表問題的開放式問答、使用LLM來對問答結果進行人格評價。

研究者對ChatHaruhi的32個角色扮演AI進行了大五人格和MBTI的人格測試，并通過與人類粉絲標注的人格標簽進行比較，表明現有角色扮演AI已經能較好還原角色的人格特質。

在后續工作中，文章作者計劃研究如何進一步提升角色扮演AI的人格還原性，并加入對LLM給出的人格評價結果與心理學專家結果的一致性的研究。

責任編輯：張燕妮來源：新智元

AI 角色

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI「cosplay」關鍵在人設！復旦、人大等發布大五人格+MBTI測試：特質還原率達82.8%，拒絕OOC

方法概述

實驗結果

總結