国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

UC伯克利:給大模型測MBTI,Llama更敢說但GPT-4像理工男

人工智能 新聞
如果給LLM做MBTI,會得到什么結果?UC伯克利的最新研究就發現,不同模型真的有自己獨特的性格
如果你經常在不同大模型之間來回切換,或許會發現不同模型的回復語氣有細微差異,如同有不同的性格。

那么,LLM究竟有沒有「性格」這種維度的特征?最近加州大學伯克利分校發表的新研究VibeCheck就證實了這種推測。

圖片

論文地址:https://arxiv.org/abs/2410.12851

評價LLM,不止于準確度

如何更全面地評價大模型在撰寫故事、解釋概念或編輯文章上的表現?當前的基準測試大多只關心正確性,然而當我們評論一個人類寫作者的時候,關注的維度就會擴展到創造力、寫作風格等眾多維度。

對于那些經常使用不同模型的用戶,他們早已熟悉不同模型回復時表達方式上的差異,比如下面這張圖中,ChatGLM的文字顯得非常全面且嚴謹,透著濃濃的學術風。

圖片

但對于同一個問題,kimi的回復會包含更多具體的例子,但解釋的語言更為簡潔。

圖片

了解這些差異,對于那些使用基座大模型進行下游應用的開發者,會有所幫助。

例如,若我們發現Llama的回復更加友好,那么說明Llama更適合進行客服類任務,而回復更為正式的Claude則更適合編程類任務。

然而該如何系統性地了解這些差異?自然是「用魔法戰勝魔法」,也就是用大模型來評價不同大模型的表現,而這正是VibeCheck在做的事。

下圖展示了VibeCheck的核心模塊,包括給出提示詞、不同大模型做出回復,以及定性評價三部分。

圖片

VibeCheck的核心模塊

給出了一組約200個的提示詞后,研究者收集了不同大模型及人類的回復,并招募了200名人類評審員,兩兩比較這些回復并對「友好性」進行打分后計算平均分。

此外,人類評審員還會對大模型和人類回復的細微差異進行描述,例如,他們發現:

  1. 大模型的回答通常很正式,而人類的回答則更口語化
  2. 大模型提供客觀答案,人類使用主觀表達
  3. 大模型拒絕回答其知識范圍之外的問題

除了人類評審員,VibeCheck還調用了GPT-4o mini來評價不同大模型的回復,結果發現與人類的評估結果相符。也就是說,GPT-4o mini也能發現上述人類評審員總結的細微差異。

下面是VibeCheck考察的10個評估維度,包括

  1. 自信:使用試探性或不確定的語言。
  2. 細節程度:提供簡短或包含細節的回答。
  3. 正式性:隨意、對話式的非正式語言,或復雜,學術性的語言
  4. 情感基調:保持中立或超然,或者在回應中表達熱情或同理心
  5. 創意:堅持標準、可預測的答案,或提供具有新穎想法或想象性場景的回應
  6. 明示性:使用模糊、隱晦的語言,或直接且明確地陳述事物
  7. 幽默詼諧:以直接嚴肅的方式回應,或使用幽默、俏皮語言、文字游戲
  8. 參與程度:被動呈現信息,或通過修辭疑問、互動性語句主動吸引讀者
  9. 邏輯嚴謹:提供結論而缺乏充分論證,或構建有充分支持的論點,推理清晰
  10. 簡潔性:使用冗長的語言和過多的細節,或使用最少的詞匯清晰表達觀點

有了VibeCheck,你可以給出自己定義的問題以及不同大模型的回復,之后由代碼自動生成多維度的評估,具體可參考論文附帶的GitHub倉庫。

圖片

倉庫地址:https://github.com/SutekhVRC/VibeCheck

主流LLM的細微差異

接下來看看三種主流大模型:Llama-3-70B、GPT-4和Claude3-Opus之間的對比。

在使用眾包及游戲排位賽的大模型評價平臺Chatbot Arena上,Llama3的表現被認為優于GPT-4及Claude3。但經由VibeCheck的評估可發現,其中另有玄機。

結果發現,Llama3更愿意參與敏感或暴力話題,對倫理的重視較少,回復更加具有對話性(例如使用更多的你,我這樣人稱代詞)和幽默感,而這些正是Chatbot Arena的用戶所關注的特征.正因為人機偏好對齊做得好,Llama3才能獲得這樣的好評。

接下來,VibeCheck還考察了文本摘要生成、數學及描述圖片這三個具體應用中不同大模型的差異,并根據這些差異解釋了為何用戶對不同大模型存在偏好。

例如,Command X和TNLG是兩個用于文本摘要/總結生成的大模型,然而經過VibeCheck的拆解,可發現:

1)Command X通常明確陳述引言和結論,TNLG則使用斷斷續續的句子

2)Command X能提供具體例子或軼事來說明觀點

3)Command X能夠捕捉到一個故事的多重視角和情感方面,TNLG則更客觀

這些特征決定了,相比TNLG,人類評審員會更加偏好Command X。與此同時,VibeCheck能夠分別以71.29%的和61.42%的準確率預測模型在前述10個維度的PK結果和人類評審員的評價。

而在數學問題上,Llama-405B的回復相比GPT-4o更加詳細,對解題步驟的講解巨細靡遺,而GPT-4偏向于使用如Latex這樣的正式符號。

然而,在數學相關問題上,用戶偏向于使用正式的語氣并頻繁使用符號,對大模型思維過程的過度解釋與人類偏好呈負相關。

VibeCheck能夠以97.09%的準確率預測模型在上述10個維度上的對決結果,并以72.79%的準確率預測用戶偏好。

圖片

在描述圖像的任務中,研究發現GPT-4V更多使用詩意的語言,并將標題結構為一個動態故事,推斷圖像中主體的個性和情感,而Gemini則堅持更直白的描述。

VibeCheck能夠實現接近完美的99.13%模型匹配準確率(相比人類給出的評價)和89.02%偏好預測準確率

圖片

結論

隨著大模型的應用范圍越來越廣,距離我們的日常生活越來越近,我們會不自覺地將大模型擬人化,而人是會具有個性的。

雖然VibeCheck更多關注文字相關的任務,但未來可以使用類似的框架,去評價不同的文生圖及文生視頻模型,考察這些模型的產出是否也存在微妙的「個性」差異。

搞清楚這些差異,就相當于開發了一條全新的藍海賽道,讓當下純粹卷模型準確性的大模型廠商有了差異化競爭的可能,從而讓各種性格的大模型得以百花齊放。

而基于大模型開發具體應用的開發者,也可以關注不同大模型在語氣、氛圍上的細微差異,選擇合適自己應用場景的大模型,或者通過微調,讓大模型在某項指標上有所改進。

例如可以根據VibeCheck的評價結果改進得到更幽默的大模型,而不必招募人類評審員。

更關鍵的是,通過VibeCheck具體的拆解,我們可發現,用戶對不同任務的偏好存在差異。

例如在回答人文類的問題時,更具有對話感、語氣更友好的大模型受歡迎;而在解答數學問題時,回答簡潔且語氣正式的大模型用戶評價更高。

這樣細致的拆解,能夠讓我們更好地進行人機偏好對齊,從而讓大模型能更貼心地為人類服務。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-31 16:15:51

模型圖像

2024-04-07 00:45:00

開源模型

2024-03-25 08:30:00

AI數據

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-12-02 08:20:00

2023-07-15 23:54:57

GPT-4AI谷歌

2025-04-18 08:42:52

模型推理AI

2023-04-07 09:28:31

模型訓練

2023-12-04 13:52:00

模型數據

2023-06-08 11:27:10

模型AI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-08-05 13:45:46

模型AI

2024-03-04 08:15:00

2025-05-15 09:10:00

2025-01-22 15:21:00

2023-08-14 08:04:13

2023-12-04 18:56:03

AI模型

2024-11-29 09:18:01

2025-04-30 09:09:00

點贊
收藏

51CTO技術棧公眾號

中文字幕资源网在线观看免费| 精品二区三区线观看| 免费精品视频一区二区三区| 99久久.com| 国产suv精品一区二区| 亚洲电影一级片| 国内精品小视频| 亚洲天堂中文字幕在线观看| 俺去了亚洲欧美日韩| 精品久久毛片| 久久色免费在线视频| 亚洲视频国产精品| 欧美专区日韩视频| 日韩欧美自拍| 91久久国产自产拍夜夜嗨| 黄色一区二区三区四区| 精品1区2区| 精品无人码麻豆乱码1区2区 | 国产精品日本一区二区| 在线看片日韩| 日韩在线电影一区| 精品综合免费视频观看| 欧美,日韩,国产在线| 中文字幕在线一区| 日本a一级在线免费播放| 在线播放中文一区| 芒果视频成人app| 久久久久久国产免费| 国产精品久久久久9999赢消| 欧美精品一区二区三区在线看午夜 | 日韩精品诱惑一区?区三区| 成人午夜小视频| 日韩高清不卡在线| 欧美a v在线播放| 中文字幕日韩一区| 亚洲乱亚洲乱妇| 亚洲视频在线免费看| 欧美成人一区在线观看| 懂色av一区二区三区在线播放| 老牛嫩草一区二区三区日本| 久久手机在线视频| 亚洲欧美另类久久久精品 | 色又黄又爽网站www久久| 在线看女人毛片| 这里只有精品在线播放| 琪琪久久久久日韩精品 | 亚洲精品888| 青娱乐一区二区| 国产午夜精品美女毛片视频| 小香蕉视频在线| 日韩av中文字幕在线| 欧美挤奶吃奶水xxxxx| 久久久99爱| 中文幕一区二区三区久久蜜桃| 在线免费观看黄色网址| 久久久久北条麻妃免费看| 91精品国产福利在线观看麻豆| 波多野结衣 作品| 欧美日韩一区二区精品| 桃色一区二区| 97自拍视频| 中文字幕av一区二区三区| 91精品国产91久久久久久青草| 久久久久久久久久久久av| 性欧美videos另类喷潮| 成人女性文胸| 亚洲电影在线观看| 婷婷精品进入| 国产黄色特级片| 亚洲成人精品在线| 99成人超碰| 欧美日韩在线免费播放| 日韩一区二区三区高清免费看看| 欧美日韩另类图片| 91国在线高清视频| 欧美日韩午夜在线视频| 伦理一区二区| 黄色片免费在线观看视频| 色狠狠一区二区| 日韩一级电影| 免费特级黄色片| 3d动漫精品啪啪一区二区竹菊| 久久97精品| 欧美成人免费在线观看视频| 91精品国产一区二区三区蜜臀| 国产一区二区精品福利地址| 国产无限制自拍| 欧美成人一级视频| 欧美激情日韩| 成人永久免费网站| 精品久久久91| 国内精品国产三级国产a久久| 成人在线免费公开观看视频| 日本人成精品视频在线| 99久久精品免费| 欧美成人ⅴideosxxxxx| 四虎一区二区| 欧美精品在线一区二区三区| 国产精品福利在线观看播放| 国产911网站| 性色av一区二区三区红粉影视| av亚洲精华国产精华精华| 欧美调教sm| 无遮挡亚洲一区| 538在线一区二区精品国产| 影视亚洲一区二区三区| 极品粉嫩饱满一线天在线| 久久久久久亚洲精品中文字幕 | 久久久成人精品一区二区三区| 精品视频一区二区不卡| jvid福利在线一区二区| ·天天天天操| 91sao在线观看国产| 国产亚洲一区二区在线观看| 成人欧美大片| 狠狠干视频网站| 亚洲视频欧美视频| 成人av电影免费在线播放| 91p九色成人| 日本国产在线播放| 欧美xxxx做受欧美| 久久免费电影网| 国产精品视频一区视频二区| 成年人午夜免费视频| 亚洲无限av看| fc2成人免费人成在线观看播放| 欧美日韩破处视频| 国产l精品国产亚洲区久久| 久久综合国产精品台湾中文娱乐网| 99国产精品国产精品久久| 日韩欧美激情电影| 2019中文字幕视频| 国产在线久久久| 欧美亚洲一区二区在线| 久久在线91| 成人看片在线观看| 成人免费无码av| 国产www精品| 欧美视频专区一二在线观看| 国产精品a级| 欧亚在线中文字幕免费| 欧美成人一区二区在线观看| 欧美日韩国产999| 一区二区欧美视频| 亚洲日本免费| 天堂√中文最新版在线| 国产熟女高潮视频| 国产成人精品视频| 欧美性淫爽ww久久久久无| 日韩不卡在线观看日韩不卡视频| 中文不卡1区2区3区| 免费日韩视频在线观看| 91av中文字幕| 欧美午夜精品久久久| 国产自产v一区二区三区c| 中文字幕日韩高清在线| 超碰在线中文| 日本一区视频在线| 久热精品视频在线观看一区| 亚洲已满18点击进入久久| 亚洲综合精品四区| 日韩电影精品| 粉嫩欧美一区二区三区| 视频一区二区三| 久久99精品久久久久久噜噜| 夜夜嗨av一区二区三区网页| 香蕉久久夜色精品| 成人免费91| 高清毛片在线看| 精品久久久无码人妻字幂| 欧美亚洲第一页| 欧美精品aⅴ在线视频| 99精品欧美一区二区三区综合在线| 精品国产1区| 在线观看a级片| 丝袜制服一区二区三区| 国产91免费视频| 播播国产欧美激情| 色偷偷成人一区二区三区91 | 在线一区日本视频| 久久久久亚洲精品国产| 欧洲一区在线观看| av一二三不卡影片| 亚洲另类视频| 久久综合偷偷噜噜噜色| 日韩黄色影院| 亚洲成人综合网站| 欧美高清第一页| 91久久国产综合久久| www.一区二区| 黄色亚洲大片免费在线观看| 国产成人免费av一区二区午夜 | 亚洲一区二区三区777| 日韩成人xxxx| 欧美日韩国产综合新一区 | 色88888久久久久久影院野外| eeuss鲁片一区二区三区在线观看| 久久久久免费av| 老牛影视av一区二区在线观看| √8天堂资源地址中文在线|