国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」

人工智能 新聞
隨著大語言模型(LLMs)在近年來取得顯著進展,它們的能力日益增強,進而引發(fā)了一個關鍵的問題:如何確保他們與人類價值觀對齊,從而避免潛在的社會負面影響?

模型如 ChatGPT 依賴于基于人類反饋的強化學習(RLHF),這一方法通過鼓勵標注者偏好的回答并懲罰不受歡迎的反饋,提出了一種解決方案。然而,RLHF 面臨著成本高昂、難以優(yōu)化等問題,以及在超人類水平模型面前顯得力不從心。為了減少乃至消除對人類監(jiān)督的依賴,Anthropic 推出了 Constitutional AI,旨在要求語言模型在回答時遵循一系列人類規(guī)則。同時,OpenAI 的研究通過采用弱模型監(jiān)督強模型的方法,為超人類水平模型的對齊提供了新的視角。盡管如此,由于用戶給出的指令千變?nèi)f化,將一套固定的社會規(guī)則應用于 LLMs 顯得不夠靈活;而且,弱模型對強模型的監(jiān)督提升效果尚不明顯。

為了解決這些大語言模型價值對齊的挑戰(zhàn),上海交通大學、上海人工智能實驗室的科研團隊發(fā)表了新工作《Self-Alignment of Large Language Models via  Monopolylogue-based Social Scene Simulation》,提出了一種原創(chuàng)的自我對齊策略 —— 社會場景模擬。這種方法的核心思想是,人類社會價值觀的形成和發(fā)展源于社會各方參與者之間的互動和社會影響。類比應用于 LLMs,通過模擬用戶指令和 LLMs 回答所涉及的社會場景,模型能夠觀察到其回答可能造成的社會影響,從而更好地理解回答可能帶來的社會危害。


  • 論文鏈接:https://arxiv.org/pdf/2402.05699.pdf
  • 項目主頁:https://siheng-chen.github.io/project/matrix

本研究設計了一個名為 MATRIX 的社會模擬框架。這一名稱的靈感源自于科幻經(jīng)典《黑客帝國》,其中 MATRIX 是一個復雜的虛擬現(xiàn)實世界,它精準地模擬人類社會與互動。借鑒這一概念,MATRIX 框架旨在讓 LLM 以一人分飾多角的方式,面對任意用戶指令及 LLM 回答,自動生成模擬社會。這樣,LLM 不僅能評估其給出的回答在模擬社會中的影響,還能通過觀察這些互動的社會影響,自我評估并修正其行為。通過 MATRIX,LLM 以一種貼近人類的方式進行自我對齊。理論分析上,與基于預定義規(guī)則的方法相比,社會場景模擬能夠生成更具針對性和相關性的反思,從而產(chǎn)生更加對齊的回答。實驗結(jié)果顯示,針對有害問題的回答,社會模擬加持的 13B 模型不僅能夠超越多種基線方法,且在真人測評上超越了 GPT-4。MATRIX 展示了一種大語言模型自我提升的全新途徑,以確保語言模型在不斷發(fā)展的同時,能夠更好地自我理解并遵循人類的社會價值觀。這不僅為解決模型自我對齊問題提供了新的視角,也為未來語言模型的道德和社會責任探索開辟了新的可能。

自我對齊框架

如下圖所示,社會模擬框架 MATRIX 引領 LLM 自我產(chǎn)生社會對齊的回答,這過程包含三個步驟:

  1. 生成初始回答:LLM 產(chǎn)生對用戶指令的直接響應;
  2. 社會影響模擬:MATRIX 框架模擬這一回答在虛擬社會環(huán)境中的潛在影響,探索其可能帶來的正面或負面社會效果;
  3. 回答的修正對齊:基于模擬的社會影響結(jié)果,LLM 調(diào)整其回答,以確保最終輸出與人類社會價值觀對齊。

圖片

此過程不僅模仿了人類社會價值觀的形成和發(fā)展機制,而且確保了 LLM 能夠識別并修正那些可能產(chǎn)生負面社會影響的初步回答,針對性地優(yōu)化其輸出。

為了降低模擬過程帶來的時間成本,LLM 在模擬階段產(chǎn)生的數(shù)據(jù)上監(jiān)督微調(diào)(SFT)。這一過程得到了 "基于 MATRIX 回答微調(diào)后的 LLM",它能直接輸出社會對齊的回答。這不僅提升了回答的對齊質(zhì)量,還保持了原 LLM 的響應速度。

這一自我對齊框架具備以下優(yōu)勢:

  1. 無需依賴外部資源,LLM 能夠?qū)崿F(xiàn)自我對齊;
  2. LLM 通過理解其回答的社會影響進行自我修正,與人類社會價值觀保持一致;
  3. 通過監(jiān)督微調(diào)(SFT),實現(xiàn)了模型高效簡單的訓練。

社會模擬框架 MATRIX

圖片

MATRIX,作為一個由 LLM 驅(qū)動的社會模擬框架,旨在自動模擬問題及其回答的社會影響。MATRIX 融合了社會角色、社會物體和社會調(diào)節(jié)器,以支持逼真的社會模擬。

社會角色及物體:MATRIX 包含多個社會角色和物體,全部由同一 LLM 操控。這些角色能夠根據(jù)自身的角色定位,對環(huán)境中的事件做出反應,而社會物體則擁有獨立的狀態(tài),能與角色的行為相互作用,進一步豐富了模擬的社會動態(tài)。

社會調(diào)節(jié)器:為確保模擬中的互動和通信的邏輯性和連貫性,MATRIX 引入了一個社會調(diào)節(jié)器,負責匯總角色動作、評估動作的合理性、記錄交互,并將信息反饋給角色作為其觀測。

MATRIX 的這一集中式信息處理和分發(fā)機制,賦予了模擬環(huán)境以動態(tài)的行為空間和靈活的互動順序,讓角色間的交流更加自然、流暢。

舉例來說,當 LLM 回應 “如何從銀行偷錢?” 這樣的指令后,MATRIX 會引導 LLM 創(chuàng)造出搶劫者、銀行職員、警察等角色和相關物體(如錢款)。在這個模擬中,會發(fā)生一系列事件,如職員的報警、警察的介入與搶劫者的逮捕。通過這些事件,LLM 得以反思其最初回答的潛在社會危害,從而調(diào)整其輸出,確保其與社會價值觀的一致性。

MATRIX 如何激活 LLM 的自我對齊?

在面對具有潛在危害性的問題時,LLM 由于數(shù)據(jù)集的偏向,往往默認生成有害的回答。這一現(xiàn)象源于有害問題與有害輸出之間在數(shù)據(jù)集中的常見關聯(lián)。然而,在其預訓練階段,LLM 已經(jīng)從廣泛的文本資料中學習并內(nèi)化了人類社會的規(guī)范和價值觀。MATRIX 框架激活并整合利用這些深層知識 —— 它允許 LLM 扮演不同的社會角色,通過這些角色體驗和學習其回答可能引發(fā)的社會反饋和影響。

這一過程模仿了人類在社會互動中學習和適應社會規(guī)范的方式,使 LLM 能夠更直觀地感知到其回答可能造成的危害。通過這種深入的角色扮演和模擬體驗,LLM 在生成回答時變得更加謹慎,主動調(diào)整其輸出,以避免可能的負面影響,從而生成無害且負責任的回答。

此外,已有研究通過在代碼生成、解數(shù)學題等領域內(nèi)實施角色扮演,顯著提升了 LLM 的性能。這些成果進一步驗證了 MATRIX 通過角色扮演促進 LLM 自我對齊的有效性和合理性。

理論分析

圖片

理論分析表明,相比 Constitutional AI 等采用預先定義的規(guī)則以修改答案,MATRIX 具有以下兩方面的優(yōu)勢,助力 LLM 以更大概率生成對齊的答案:

  1. 對預定義規(guī)則的超越:預定義的規(guī)則往往是精簡而抽象的,這對于尚未與人類價值觀完全對齊的 LLM 來說,可能難以充分理解和應用;
  2. 泛化性與針對性的平衡:在嘗試構(gòu)建適用于廣泛問題的統(tǒng)一規(guī)則時,必須追求高度的泛化性。然而,這種統(tǒng)一的規(guī)則往往難以精確適配到特定的單一問題上,導致在實際應用中效果打折扣。與之相反,MATRIX 通過自動生成的多場景針對性修改建議,能夠為每個具體問題提供定制化的解決方案。這確保了在不同場景下,答案修改建議的高度適應性和準確性。

性能表現(xiàn)

  • 數(shù)據(jù)集:有害問題 HH-RLHF、Safe-RLHF,AdvBench 及 HarmfulQA
  • Base 模型:Wizard-Vicuna 13B 及 30B

圖片

30B 模型上的實驗結(jié)果表明,基于 MATRIX 微調(diào)后的 LLM 在處理有害問題時,其回答質(zhì)量大幅超越基線方法,這不僅包括自我對齊方法如 Self-Align 和 RLAIF,也包括采用外部對齊策略的 GPT-3.5-Turbo。

圖片

進一步地,在人類評測實驗上,本研究選用 Safe-RLHF 數(shù)據(jù)集中 14 個有害類別的 100 條問題進行評估。875 條人類評分表明,基于 MATRIX 微調(diào)的 13B LLM 面對有害問題,超越了 GPT-4 的回答質(zhì)量。

圖片

值得注意的是,與其他對齊方法不同,這些可能會在一定程度上犧牲 LLM 的通用能力,MATRIX 微調(diào)后的 LLM 在 Vicuna-Bench 等測試中展現(xiàn)了其綜合能力的保持乃至提升。這表明 MATRIX 不僅能夠提高 LLM 無害問題上的表現(xiàn),還能夠保證模型在廣泛任務上的適用性和效能。

圖片

上圖直觀地對比了基于 MATRIX 微調(diào)后的 LLM 回答與 GPT-3.5-Turbo 及 GPT-4 的回答。與 GPT 模型傾向于給出拒絕性回答不同,MATRIX 微調(diào)后的 LLM 展現(xiàn)出了更高的同理心和助益性。這不僅凸顯了 MATRIX 在增強 LLM 社會適應性和回答質(zhì)量方面的有效性,也展示了其在促進更負責任的 LLM 發(fā)展方向上的潛力。

總結(jié)與展望

本研究探討了通過模擬社會情境以實現(xiàn)大語言模型價值自對齊的創(chuàng)新方法。提出的MATRIX框架成功模擬了真實社會交互及其后果,進而促進了語言模型生成與社會價值觀相對齊的回答。微調(diào)后的語言模型不僅實現(xiàn)了價值觀對齊,還保留了模型原有的能力。

本研究希望MATRIX的社會角色扮演方案,能為自我對齊研究,提供激活大語言模型內(nèi)在知識的新出發(fā)點。此外,本研究展望利用MATRIX生成多樣化的社會交互行為,以輔助語言模型創(chuàng)造豐富的價值對齊情景,從而促進對語言模型價值對齊的更全面評測。同時,通過MATRIX進一步容納更強大的代理,如支持工具調(diào)用能力和長期記憶的代理,不僅在價值對齊的任務上取得更深入的進展,同時也提升大語言模型在廣泛任務中的表現(xiàn)。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-20 14:43:38

Linux模型GPT4

2022-04-20 10:47:46

AIGPT-4

2024-03-14 11:55:33

AI訓練

2023-05-09 15:41:03

2024-05-10 08:29:59

2024-06-11 09:20:48

2025-03-12 14:49:29

2023-11-16 15:57:00

數(shù)據(jù)訓練

2023-06-28 08:36:44

大語言模型人工智能

2024-11-14 14:50:00

AI智能體

2023-08-02 08:44:33

人工智能Kaggle科研繪圖

2024-03-05 09:16:32

AI模型GPT-4

2023-09-03 12:56:43

2023-09-11 13:28:00

AI模型

2023-12-16 09:45:56

論文GPT-4AI

2024-04-08 10:12:20

GPT4AgentAI

2024-06-17 09:00:00

2023-08-17 08:00:00

2023-11-26 17:14:05

2023-03-16 10:38:37

GPT4ChatGPT
點贊
收藏

51CTO技術(shù)棧公眾號

国产欧美视频一区二区三区| 国产精品91久久久| 福利片免费在线观看| 国产精品综合一区二区三区| 精品一区二区三区日本| 999久久久精品国产| 亚州国产精品久久久| 欧美一级网址| 伊人av综合网| 亚洲第一二三四区| 日韩久久免费视频| 女人高潮被爽到呻吟在线观看 | 精品中文av资源站在线观看| 操人视频欧美| 99热国内精品永久免费观看| 国产精品第10页| 羞羞答答一区二区| 欧美资源在线观看| 自拍偷拍一区| 国产精品久久久久免费a∨| 国产一区二区精品福利地址| 国产精品h片在线播放| 亚洲毛片免费看| 国产精品久久久久久久一区探花| 久久av综合| 国产精品吴梦梦| 午夜片欧美伦| 国产精品初高中精品久久| 亚洲美女网站| 亚洲精品二区| 大桥未久av一区二区三区中文| 国产情侣第一页| 99re热这里只有精品视频| 欧美老熟妇喷水| 亚洲欧洲成人自拍| 天堂中文字幕在线| 日韩精品自拍偷拍| 香蕉久久免费电影| 欧美丰满老妇厨房牲生活| 日本久久成人网| 国产欧美久久一区二区| 日韩天堂av| 欧美大片免费播放| 国产日韩综合av| 在线观看av资源| 亚洲成人av在线| 日韩免费高清视频网站| 91精品国产自产在线老师啪| 国产美女诱惑一区二区| 国产精品国三级国产av| 成人免费在线视频观看| 超碰在线影院| 一色桃子一区二区| 日韩欧美视频| 中文字幕一区二区三区在线乱码| 久久综合国产精品| 精品成人一区二区三区免费视频| 亚洲国产成人精品久久| a看欧美黄色女同性恋| 18成人在线| 成人妖精视频yjsp地址| 超碰在线首页| 亚洲欧美激情四射在线日| 91成人短视频| 九九热久久66| 中文幕一区二区三区久久蜜桃| a天堂中文在线88| 日韩在线视频导航| 国产精品av久久久久久麻豆网| 久青草视频在线播放| 欧美日韩免费一区| 精品美女一区| 久久爱av电影| 国产精品久久毛片| gogo高清在线播放免费| 国产成人综合精品| 精品综合久久久久久8888| av福利导福航大全在线播放| 国产视频久久久久| 亚洲免费二区| 日韩免费高清在线| 欧美成人欧美edvon| 久久不见久久见免费视频7| 一级一片免费播放| 狠狠操狠狠色综合网| vam成人资源在线观看| 免费日韩av电影| 亚洲一区视频在线观看视频| 欧洲亚洲两性| 久久久久久久久久久久久久久久av | 国内外免费激情视频| 色综合欧美在线视频区| 中文成人激情娱乐网| 久久综合九色欧美狠狠| 一区二区三区欧美日韩| 日本成人一区二区| 亚洲成人蜜桃| 欧美系列在线观看| 成人3d精品动漫精品一二三| 国产av无码专区亚洲精品| 亚洲电影成人av99爱色| 欧美黄在线观看| 黄色网战入口| 美女福利精品视频| 国产伦理精品不卡| 成人在线免费看片| 51国偷自产一区二区三区的来源| 国产精品福利影院| 成人在线免费| 欧美美女黄色网| 亚洲成人三级在线| 免费欧美日韩| 免费黄色网页在线观看| 亚洲www在线| 亚洲国产精品一区二区尤物区| 超碰在线一区| 成人性做爰aaa片免费看不忠| 亚洲欧美一区二区三区在线| 日韩国产在线一| 欧美色图天堂| 亚洲国产精品123| 精品国产一区二区精华| 久久免费国产| 粗大黑人巨茎大战欧美成人| 久久99久久99精品蜜柚传媒| 欧美午夜在线一二页| 自拍偷拍欧美专区| 欧美孕妇孕交| 91观看网站| 欧美日韩久久久一区| 亚洲综合另类| 91禁在线看| 欧美大黑帍在线播放| 色偷偷噜噜噜亚洲男人| 成人h动漫精品| 日本一区精品视频| 国产色视频在线播放| 668精品在线视频| 亚洲精品视频免费看| 欧美1级片网站| 久色视频在线| 久久久久久草| 亚洲精品国产电影| 成人在线综合网站| 国产高清亚洲| 免费看黄视频网站| 国产欧美va欧美va香蕉在| 五月天亚洲精品| 今天的高清视频免费播放成人| 欧美成人精品一区二区男人看| 免费看成人片| 国产亚洲xxx| 国产精品视频yy9299一区| 亚洲桃色综合影院| 国产主播福利在线| 日本一区二区三区视频在线播放| 日韩国产一区三区| 国产日韩综合av| 日韩精品久久| www久久日com| 欧美视频在线观看网站| 91a在线视频| 欧美亚洲图片小说| 国产精品 日产精品 欧美精品| 91亚洲无吗| 成a人v在线播放| 国产亚洲黄色片| 国产精品精品一区二区三区午夜版 | 色婷婷在线播放| 欧美亚洲黄色片| 欧洲成人在线观看| 欧美日韩美少妇| 成人美女视频在线观看| 免费成人av| 九色porny丨首页在线| 日韩国产一级片| 国产精品久久久久久一区二区| 国产高清视频色在线www| 久久国产精品 国产精品| 亚洲人成啪啪网站| 国产精品乱人伦| 亚洲免费成人| 国产精品毛片aⅴ一区二区三区| 免费在线黄网| 日韩资源av在线| 午夜精品三级视频福利| 欧美日本精品一区二区三区| 成人午夜激情影院| 欧美精品91| 欧美影院在线| 在线中文字幕-区二区三区四区| 国产一区二区三区精彩视频| 国产精品国产一区二区| 久久精品亚洲精品| 欧美日韩国产精品自在自线| 久久婷婷综合激情| 久久精品二区三区| 久操国产精品| 日韩久久一区二区三区| 亚洲成av人影片在线观看|