国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

十行代碼媲美RLHF,用社交游戲數據訓練社會對齊模型

人工智能 新聞
人類大腦中真的存在一個打分模型負責價值判斷嗎?

讓語言模型的行為符合人類社會價值觀是當前語言模型開發的重要環節。相應的訓練也被稱為價值對齊 (value alignment)。

當前主流的方案是 ChatGPT 所采用的 RLHF (Reinforcenment Learning from Human Feedback),也就是在人類反饋上進行強化學習。這一方案首先先訓練一個 reward model (價值模型)作為人類判斷的代理。代理模型在強化學習階段為生成式語言模型的提供獎勵作為監督信號。

這一方法存在如下痛點:

1.代理模型產生的獎勵很容易被破除或者篡改。

2. 在訓練過程中,代理模型需要和生成式模型進行不斷交互,而這一過程可能非常耗時且效率不高。為了保證高質量的監督信號,代理模型不應小于生成式模型,這也就意味著在強化學習優化過程中,至少有兩個比較大的模型需要交替進行推理(判斷得到的獎勵)和參數更新(生成式模型參數優化)。這樣的設定在大規模分布式訓練中可能會非常不便。

3. 價值模型本身并無和人類思考模型上明顯的對應。我們腦海中并沒有一個單獨的打分模型,而且實際上長期維護一個固定的打分標準也非常困難。相反,我們的成長過程中價值判斷的形成大部分來自每天的社交 —— 通過對相似場景的不同社交反饋的分析,我們逐漸意識到什么是會被鼓勵的,什么是不允許的。這些通過大量 “社交 — 反饋 — 改進” 而逐漸積累的經驗和共識成為了人類社會共同的價值判斷。

最近一項來自達特茅斯,斯坦福,谷歌 DeepMind 等機構的研究表明,利用社交游戲構造的高質量數據配合簡單高效的對齊算法,也許才是實現 alignment 的關鍵所在。

圖片

  • 文章地址:https://arxiv.org/pdf/2305.16960.pdf
  • 代碼地址:https://github.com/agi-templar/Stable-Alignment
  • 模型下載(包含基座,SFT,和對齊模型):https://huggingface.co/agi-css

作者提出一種在多智能體游戲數據上訓練的對齊方法。基本思想可以理解為將訓練階段的獎勵模型和生成式模型的在線交互,轉移到游戲中大量自主智能體之間的離線交互之中(高采樣率,提前預演博弈)。游戲環境的運行獨立于訓練,并且可以大量并行。監督信號從取決于代理獎勵模型的性能變成取決于大量自主智能體的集體智慧。

圖片

為此作者設計了一個虛擬社會模型,稱之為沙盒 Sandbox。沙盒是一個格點構成的世界,每一個格點是一個 social agent (社交體)。社交體具有記憶系統,用于存儲每一次交互的問題,回答,反饋等各種信息。在社交體每一次對于問題做出回答時,都要先從記憶系統中檢索并返回和問題最相關的 N 條歷史問答,作為這一次回復的上下文參考。通過這一設計,社交體能在多輪互動中的立場不斷更新,且更新的立場能和過去保持一定延續性。初始化階段每一個社交體都有不同的預設立場。

圖片

將游戲數據轉化為 alignment 數據

在實驗中作者使用 10x10 的格點沙盒(一共 100 個社交體)進行社會仿真,且制定了一個社會規則(即所謂 Sandbox Rule):所有社交體必須通過使自己對于問題的回答更加 socially aligned (社交對齊)來給其它社交體留下好的印象。此外沙盒還部署了沒有記憶的觀察者,在每一次社交前后,給社交體的答復做出打分。打分基于 alignment 和 engagement 兩個維度。

圖片

使用不同模型在沙盒中的模擬人類社會

作者利用沙盒 Sandbox 測試了不同大小,以及不同訓練階段的語言模型。整體而言,經過 alignment 訓練的模型 (即所謂 “對齊后的模型”),比如 davinci-003, GPT-4,和 ChatGPT,能在更少的交互輪次中就能生成符合社會規范的回復。換句話說,alignment 訓練的意義就在于讓模型在 “開箱即用” 的場景下更加安全,而不需要特別的多輪對話引導。而未經 alignment 訓練的模型,不僅需要更多的交互次數使回復達到 alignment 和 engagement 的整體最優,而且這種整體最優的上限顯著低于對齊后的模型。

圖片

作者同時提出一種簡便易行的對齊算法,稱為 Stable Alignment (穩定對齊),用于從沙盒的歷史數據中學習 alignment。穩定對齊算法在每一個 mini-batch (小批次)中進行打分調制的對比學習 —— 回復的得分越低,對比學習的邊界值就會被設定的越大 —— 換句話說,穩定對齊通過不斷采樣小批次數據,鼓勵模型生成更接近高分回復,更不接近低分回復。穩定對齊最終會收斂于 SFT 損失。作者還對穩定對齊和 SFT,RLHF 的差異進行了討論。

圖片

作者特別強調來自沙盒 Sandbox 的游戲的數據,由于機制的設定,大量包含通過修訂 (revision)而成為符合社會價值觀的數據。作者通過消融實驗證明這種大量自帶漸進式 (step-by-step)改進的數據是穩定訓練的關鍵。

圖片

圖片

作者還和當前主流對齊算法性能和訓練穩定性進行了性能上的比較,證明穩定對齊不僅比 reward modeling 更穩定,而且在通用性能和 alignment 性能上都足以媲美 RLHF (由于 ChatGPT 使用未公開的模型,數據和算法,因此僅作為參考)。

實例生成結果:

圖片

更多細節請參考論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-04-29 14:08:19

手機社交游戲游戲開發

2010-09-16 09:21:45

OpenFeintAndroid

2012-03-05 20:14:00

移動

2022-03-14 09:57:30

Python代碼

2023-12-06 18:09:01

2012-03-12 21:49:33

移動

2010-09-01 08:32:40

2013-04-27 16:14:33

Corona

2022-07-07 15:50:19

Python開發功能

2020-11-08 14:44:37

VSCode代碼編碼

2013-11-11 13:55:56

移動社交游戲微信游戲

2012-02-01 15:09:00

社交游戲休閑游戲用戶維續

2013-03-26 10:27:32

社交游戲公司云存儲

2022-01-25 12:51:58

Python代碼證件照

2022-03-23 15:32:38

Python開發代碼

2011-07-22 09:31:11

Google+Facebook谷歌

2013-10-15 17:40:52

手游騰訊游戲

2013-01-28 09:27:56

移動社交Line移動游戲

2025-06-18 10:05:26

2016-03-29 10:08:07

點贊
收藏

51CTO技術棧公眾號

日韩欧美精品在线视频| 欧美精品高清视频| 国产丝袜一区二区三区| 日韩jizzz| av在线app| 久久精品99国产精品日本| 日韩欧美国产wwwww| 国产在线播放91| 黄色一级片在线看| 亚洲wwwww| 伊人久久大香线蕉精品组织观看| 91蜜桃传媒精品久久久一区二区| 在线电影院国产精品| 国产一区欧美二区三区| 丁香色欲久久久久久综合网| 色呦呦在线看| 欧美激情 亚洲a∨综合| 欧美日韩一区视频| 国产精品久久77777| 99在线首页视频| 五月婷婷六月丁香激情| 亚洲1区在线| 中文子幕无线码一区tr| 国产成人在线免费观看| 久久夜色精品国产| www免费在线观看视频| 99精品国产一区二区青青牛奶 | 日本黄网免费一区二区精品| 亚洲欧洲高清| 国产精品污www在线观看| 日本精品免费一区二区三区| 日本成人黄色网址| 欧美挤奶吃奶水xxxxx| 97久久超碰国产精品电影| 久久久国产一区| 高清一区二区视频| 日韩精品免费视频一区二区三区 | 亚洲裸体xxxx| 国产91久久婷婷一区二区| 日韩精品 欧美| 高清中文字幕一区二区三区| 久久爱.com| 久久国产精品色婷婷| 亚洲国产成人av在线| 亚洲国产精品久久久久婷蜜芽| 蜜桃成人av| 66视频精品| 亚洲精品一区久久久久久| 黄色片视频在线| 久久精品在线| 97久久精品视频| 主播国产精品| 亚洲一级二级三级| 亚洲一区二区三区精品动漫| 国产亚洲欧美日韩在线观看一区二区 | 精品少妇一区二区三区在线播放| 欧美激情一区二区三区在线视频| 1024在线播放| 中文字幕欧美激情一区| 成人观看高清在线观看免费| 午夜爽爽视频| 欧美精品99| 日韩一区二区三区观看| 91色国产在线| 秋霞欧美视频| 国产69精品久久久久毛片| 青青草一区二区| 免费成人美女女| 欧美日韩亚洲视频| 国产一区二区三区四区福利| 欧美成人免费| |精品福利一区二区三区| 久草热视频在线观看| 亚洲中字在线| 国产乱子伦精品| 国产亚洲一区二区三区不卡| 亚洲美女又黄又爽在线观看| 浮生影视网在线观看免费| 99久久伊人精品| 99久re热视频这里只有精品6| 黑人巨大亚洲一区二区久| 亚洲一区在线视频| 我的公把我弄高潮了视频| 68国产成人综合久久精品| 国产亚洲视频在线| 粉嫩tv在线播放| 亚洲欧美日本日韩| 久久久国产精品免费| 成视频在线观看免费观看| 亚洲成人av免费| 国产黄色激情视频| 视频在线不卡免费观看| 一本到不卡精品视频在线观看 | 丝袜美腿美女被狂躁在线观看| 国产精品va在线观看视色| 青青操综合网| 欧美大秀在线观看| 亚洲爽爆av| 福利一区福利二区| 日韩在线电影一区| 国产成人在线色| 国产精品69页| 一本一道久久a久久精品综合蜜臀| 国产精品视频二区三区| 日韩精品一二三四区| 亚洲成人影音| 色综合色综合网色综合| 精品国内亚洲2022精品成人| 久久深夜福利免费观看| freexxx性亚洲精品| 色综合久久88色综合天天6| 免费一级电影| 亚洲色图另类专区| heyzo视频在线播放| 欧美国产日韩亚洲一区| 国产精品又粗又长| 亚洲女同一区| 欧美大奶子在线| 国产夫妻在线播放| 欧美一区二区视频在线观看2022| 欧美男女交配| 精品久久久久久最新网址| 中国在线观看免费国语版电影| 一区二区三区四区五区精品视频 | 欧美精品一二三区| 免费成人在线观看| 91超碰在线免费观看| 日韩欧美午夜| 精品欧美一区二区在线观看视频| 综合日韩av| 精品成人免费观看| 国产成人精品福利| 日本精品免费| 亚洲国产精品欧美一二99| 影音先锋男人在线资源| 国产精品7m视频| 成人不卡免费av| 成人性生交大片免费看午夜| 一区二区三欧美| 久久精品动漫| 国产女呦网站| 亚洲成人第一页| 一道本视频在线观看| 一区二区三区久久| 国产女人在线观看| 欧美日韩精品一区二区天天拍小说| 黄网站app在线观看大全免费视频| 亚洲第五色综合网| 久久视频国产| 最新中文在线视频| av激情久久| 88在线观看91蜜桃国自产| 久久婷婷一区| caoporm免费视频在线| 制服国产精品| 日韩精品999| 激情六月婷婷综合| free性欧美16hd| 婷婷久久伊人| 精品久久久久一区二区国产| 99久久婷婷这里只有精品| 丁香六月激情网| 亚洲精品理论电影| 日韩国产高清在线| 一级片免费在线| 久久国产精品亚洲| 久久激情五月激情| 男人久久精品| 国产精品久久久久7777婷婷| 成人av免费观看| 黄色在线网站噜噜噜| 国产精品区一区二区三含羞草| 国产三区在线成人av| 亚洲www啪成人一区二区| 欧美二区三区| 7777精品伊人久久久大香线蕉最新版 | 欧美aaa一级片| 久久天天躁狠狠躁夜夜av| 国产精品一区二区久激情瑜伽 | 日日夜夜免费精品| 青青草视频在线免费观看| 国产精品国产三级国产专播精品人| 国产欧美日韩久久| 成人精品在线| 91香蕉视频导航| 色中色综合影院手机版在线观看| 91免费小视频| 国产精品极品在线观看| 特级毛片在线观看| 国产精品成av人在线视午夜片| 欧美老肥妇做.爰bbww| 蜜桃视频在线一区| 成人在线网站| 免费av在线一区二区| 欧美视频一区二区三区在线观看| 国内精品久久久久国产盗摄免费观看完整版| 色播在线视频| 亚洲精品一区二区三区樱花| 伊人伊成久久人综合网小说| 久久久一区二区三区捆绑**|