国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Karpathy觀點惹爭議:RLHF不是真正的強化學習,谷歌、Meta下場反對

人工智能 新聞
RLHF 與 RL 到底能不能歸屬為一類,看來大家還是有不一樣的看法。

AI 大牛 Karpathy 又來科普人工智能概念了。

昨日,他發推表示,「基于人類反饋的強化學習(RLHF)只是勉強算得上是強化學習(RL)。」

Karpathy 的全文解釋如下:

RLHF 是訓練大語言模型(LLM)的第三個(也是最后一個)主要階段,前兩個階段分別是預訓練和監督微調(SFT)。我認為 RLHF 只是勉強算得上 RL,它沒有得到廣泛的認可。RL 很強大,但 RLHF 卻不然。

讓我們看看 AlphaGo 的例子,它是使用真正的 RL 訓練的。計算機玩圍棋(Go)游戲,并在實現獎勵函數最大化的回合(贏得比賽)中訓練,最終超越了最厲害的人類棋手。AlphaGo 沒有使用 RLHF 進行訓練,如果它用了,效果就不會那么好。

用 RLHF 訓練 AlphaGo 會是什么樣子呢?首先,你要給人類標注員兩個圍棋棋盤的狀態,然后問他們更喜歡哪一種:

圖片

然后你會收集到 10 萬個類似的比較,并訓練一個「獎勵模型」(RM)神經網絡來模擬人類對棋盤狀態的氛圍檢查(vibe check)。你要訓練它同意人類判斷的平均水平。一旦我們有了獎勵模型氛圍檢查,你就可以針對此運行 RL,學習如何下出帶來良好氛圍的棋步。顯然,這不會在圍棋中產生任何太有趣的結果。

這主要有以下兩個根本的、獨立的原因:

1) 氛圍可能會產生誤導,這不是實際獎勵(贏得比賽)。這是一個糟糕的智能體目標。更糟糕的是,2) 你會發現你的 RL 優化偏離了軌道,因為它很快發現棋盤狀態與獎勵模型相反。請記住,獎勵模型是一個龐大的神經網絡,使用數十億參數來模擬氛圍。有些棋盤狀態超出了自身訓練數據的分布范圍,實際上并不是良好狀態,但卻從獎勵模型中獲得了非常高的獎勵。

出于同樣的原因,我有時感到驚訝的一點是 RLHF 工作竟然適用于 LLM。我們為 LLM 訓練的獎勵模型只是以完全相同的方式進行氛圍檢查,它會對人類評分者在統計學上看起來喜歡的助手響應給出高分。這不是正確解決問題的實際目標,而是人類認為好的智能體目標。

其次,你甚至無法長時間地運行 RLHF,因為你的模型很快學會以游戲獎勵模型的方式來做出響應。這些預測看起來真的非常奇怪,你會看到你的 LLM 助手開始對很多 prompt 做出無意義的響應,比如「The the the the the the」。這在你看來是荒謬的,但隨后你查看獎勵模型氛圍檢查,卻發現出于某種原因,獎勵模型會認為這些看起來很棒。

你的 LLM 發現了一個對抗性示例,它超出了獎勵模型訓練數據的范圍,處于未定義的范圍。你可以通過反復講這些特定示例添加到訓練集來緩解這一情況,但下次仍會找到其他對抗性示例。你甚至無法運行 RLHF 進行很多優化步驟。你執行了幾百或幾千步之后必須調用它,因為你的優化將開始與獎勵模型博弈。這并不是 AlphaGo 那樣的 RL。

不過,RLHF 是構建 LLM 助手的一個非常有用的步驟。我認為這有幾個微妙的原因,其中我最喜歡的一點是通過 RLHF,LLM 助手會從生成器 - 判別器的 gap 中受益。也就是說,對于很多問題類型,人類標注員從幾個候選答案中選出最佳答案要比從頭寫出理想答案容易得多。一個很好的例子是像「生成一首回形針詩」這樣的 prompt。一個普通的人類標注員很難從頭寫出一首好詩來作為監督微調示例,但可以在給定幾個候選答案(詩)的情況下選出一首較好的。因此 RLHF 是一種從人類監督的「容易度」差距中獲益的方式。

還有一些其他原因,比如 RLHF 有助于緩解幻覺。如果獎勵模型是一個足夠強大的模型,能夠在訓練期間發現 LLM 編造的東西,則可以學會用低獎勵來懲罰這種行為,教會模型在不確定時避免冒險獲取事實性知識。但令人滿意的幻覺緩解和處理是另外的事情,這里不做延伸。總之,RLHF 確實有用,但它不是 RL。

到目前為止,還沒有一個針對 LLM 的生產級 RL 在開放域得到令人信服的實現和大規模展示。直觀地說,這是因為在開放式問題解決任務中獲得實際獎勵(即贏得比賽)非常困難。在圍棋這類封閉、類博弈的環境中,一切都很有趣。其中動態受到限制,獎勵函數評估成本很低,不可能進行博弈。

但是,你如何為總結一篇文章提供客觀的獎勵?或者回答關于某個 pip 安裝的模棱兩可的問題?或者講個笑話?或者將一些 Java 代碼重寫為 Python?實現這些在原則上并非不可能, 但也非易事,需要一些創造性思維。無論誰能令人信服地解決這個問題,都將能夠運行真正的 RL,使得 AlphaGo 在圍棋中擊敗了人類。有了 RL,LLM 在解決開放域問題中才有可能真正擊敗人類。

Karpathy 的觀點得到一些人的附議,并指出 RLHF 與 RL 的更多差異。比如 RLHF 沒有進行適當的搜索,主要學習利用預訓練軌跡的子集。相比之下,在進行適當的 RL 時,離散動作分布通常會通過在損失函數中添加熵項來增噪。Kaypathy 認為,原則上你可以輕松地為 RLHF 目標添加熵獎勵,這在 RL 中也經常這樣做。但實際上似乎并不多見。

圖片

谷歌研究科學家 Kevin Patrick Murphy 也完全同意 Karpathy 的觀點。他認為 RLHF 更像是一個具有字符串值操作的上下文「強盜」,其中 prompt 是上下文,所以不能稱為完整的 RL。此外將日常任務的獎勵形式化是困難的部分(他認為或許可以叫做對齊)。

圖片

圖源:https://x.com/sirbayes/status/1821421936045597022

不過,另一位谷歌高級研究科學家 Natasha Jaques 認為 Karpathy 的觀點是錯誤的。她認為智能體在與人互動時,給出人類喜歡的答案才是真正的目標。

超出分布范圍并不是 RLHF 獨有的問題。如果僅僅因為人類反饋比運行無限的圍棋模擬更受限,并不意味著這不是一個不值得解決的問題,只會讓它成為一個更具挑戰性的問題。她希望這成為一個更有影響力的問題,畢竟在 LLM 中減少偏見比在圍棋中擊敗人類更有意義。使用貶義的話術,比如 Karpathy 說獎勵模型是一種氛圍檢查,這是愚蠢的。你可以用同樣的論點來反對價值估計。

她覺得 Karpathy 的觀點只會阻止人們從事 RLHF 工作,而它是目前唯一可行的減輕 LLM 偏見和幻覺可能造成嚴重傷害的方法。

圖片

圖源:https://x.com/natashajaques/status/1821631137590259979

Meta 研究者 Pierluca D'Oro 不同意 Karpathy 的主要觀點,但同意「RLHF is just barely RL」這一標題。他認為通常用于微調 LLM 的 RLHF 幾乎不能算是 RL。

主要觀點如下:在強化學習中,追求一個「完美的獎勵」概念是不現實的,因為大多數復雜任務中,除了目標的重要性,執行方式同樣重要。盡管在圍棋等明確規則的任務中,RL 表現出色。但在涉及復雜行為時,傳統 RL 的獎勵機制可能無法滿足需求。他主張研究如何在不完美的獎勵模型下提高 RL 的性能,并強調了反饋循環、魯棒 RL 機制以及人機協作的重要性。 

圖片

圖源:https://x.com/proceduralia/status/1821560990091128943

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-09 12:46:04

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-02-27 09:24:05

模型技術

2025-04-18 10:01:41

2018-08-29 08:13:22

Google 學習框架技術

2013-03-07 10:26:21

編程程序員編程觀點

2025-10-14 08:59:00

2025-08-29 17:09:30

KarpathyAGILLM

2025-05-28 02:25:00

2025-10-20 01:00:00

強化學習AI人工智能

2020-12-17 19:43:36

編程代碼程序員

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-10-10 09:02:16

2009-04-03 08:26:54

華為末位淘汰制裁員

2021-10-11 09:51:38

谷歌人工智能強化學習

2024-11-18 13:30:00

2025-08-29 09:01:40

AI模型訓練

2025-06-23 09:07:00

2024-07-22 08:22:00

點贊
收藏

51CTO技術棧公眾號

免费在线观看一区二区| 91精品久久| 麻豆精品视频在线观看视频| 九九精品在线观看| 欧美videos另类精品| 午夜视黄欧洲亚洲| 成人黄18免费网站| 久久久久久毛片| 亚洲天堂第一区| 久久电影网站中文字幕| 欧美大陆一区二区| 国产一区91| 久久综合中文色婷婷| 最新国产精品| 99国产超薄肉色丝袜交足的后果| 国产亚洲一卡2卡3卡4卡新区| 欧美激情中文字幕乱码免费| 免费成人黄色网| 在线观看欧美| 久久精品成人欧美大片| 婷婷六月国产精品久久不卡| 精品国产一区二区三区久久久蜜月| www视频在线观看免费| 欧美中文字幕一区| 思思99re6国产在线播放| 欧美图片一区二区三区| 米奇777四色精品人人爽| 欧美一区二区三区在线| 天堂av在线电影| 日韩欧美在线一区二区三区| 菠萝菠萝蜜在线视频免费观看| 欧美精品在线观看播放| 成人直播在线| 精品国产一区二区在线观看| heyzo中文字幕在线| 亚洲精品国产精品国自产在线| 涩涩视频在线播放| 国产亚洲精品久久久| 亚洲男男av| 清纯唯美亚洲激情| 国产精品久久久久久麻豆一区软件| 91亚洲精品丁香在线观看| 你懂的成人av| 欧美激情一区二区三区在线视频| 久久成人精品无人区| 日韩久久不卡| 国产乱码精品一区二区三区忘忧草| 亚洲九九视频| 91精品在线播放| 国产欧美欧美| 亚洲综合视频一区| av高清久久久| 日本免费一二区| 欧美日韩小视频| 澳门成人av网| 97视频在线播放| 国产精品草草| 日韩精品一区二区免费| 中文字幕人成不卡一区| 牛牛澡牛牛爽一区二区| 欧美一区二区三区婷婷月色| 粉嫩一区二区| 国产91色在线| 日韩精品高清不卡| 国产精品入口免费软件| 偷窥少妇高潮呻吟av久久免费| 肉肉视频在线观看| 欧美黄色三级网站| 亚洲欧美一级二级三级| 看一级黄色录像| 亚洲电影在线播放| 中文字幕在线看片| 日韩av123| 看国产成人h片视频| 成年在线播放小视频| 精品久久久久久久久久久久包黑料 | 免费在线观看毛片网站| 精品久久久久久久久中文字幕| av片在线观看永久免费| 久热在线中文字幕色999舞| 亚洲调教视频在线观看| 日韩成人三级视频| 精品毛片三在线观看| 中国色在线日|韩| 成人动漫网站在线观看| 不卡视频免费播放| 日本中文字幕在线看| 91精品91久久久久久| 久久国产精品99久久久久久老狼| 中文字幕av网| 中文字幕欧美视频在线| 亚洲一区国产一区| 色黄视频在线| 欧美国产第一页| 久久99热狠狠色一区二区| 少妇性bbb搡bbb爽爽爽欧美| 草民午夜欧美限制a级福利片| 亚洲麻豆av| 在线观看入口黄最新永久免费国产| 亚洲成人精品久久| 91精品天堂福利在线观看| 青青草原成人网| 亚洲第一区第一页| 亚洲福利久久| 一级在线免费观看| 欧美日韩高清区| 国产精品综合在线视频| 蜜桃视频在线观看www社区| 日韩av电影手机在线观看| 不卡视频免费播放| 高清视频在线观看三级| 9a蜜桃久久久久久免费| 一区二区在线电影| 精品亚洲精品| 欧美激情精品久久久久久小说| 亚洲成人三级在线| 亚洲国产精品第一区二区| 国产在线导航| 2019最新中文字幕| 国产网红主播福利一区二区| 成人精品电影在线| 亚洲精品天堂成人片av在线播放| 欧美日韩一区三区四区| 欧美激情第二页| 黄色软件在线观看| 96久久精品| 欧美中文一区二区三区| 香蕉国产精品| 夜鲁很鲁在线视频| 成人午夜两性视频| 天天综合日日夜夜精品| 天天久久综合| 午夜在线观看视频网站| 国产精品自在线| 亚洲一区精品在线| 精品理论电影在线| 97视频在线观看网址| 91国在线观看| 久久久精品网| www555久久| 综合在线视频| 色资源网站在线观看| 国产成人一区二区| 亚洲色图视频免费播放| 亚洲国产国产| 李宗瑞系列合集久久| 国产精品视频色| 色先锋aa成人| 先锋影音久久久| 黄页网站大全在线免费观看| 亚洲欧美在线网| 亚洲午夜色婷婷在线| 99久久精品国产网站| 哺乳一区二区三区中文视频| 成年美女网站| 亚洲一区二区三区视频播放| 欧美日韩视频一区二区| 久久精品久久久精品美女| 精品国模一区二区三区| 91插插插插插插插插| 国产在线拍偷自揄拍精品| 欧美日韩一区二区三区视频| 久久精品国产秦先生| 美女久久精品| 在线精品视频视频中文字幕| 久久成人av| 男女污视频在线观看| 狠狠爱一区二区三区| 亚洲精品99999| 久久久精品tv| 亚洲a在线视频| 国产盗摄在线视频网站| 男人天堂网视频| 国产精品福利观看| 欧美精品电影在线播放| 国产一区二区三区四| 成人性生交大片免费看中文视频 | 成年人视频在线看| 人人妻人人澡人人爽精品欧美一区| xvideos亚洲| 亚洲国产色一区| 麻豆精品精品国产自在97香蕉| 97品白浆高清久久久久久| 九色网友自拍视频手机在线| 国产精品一二三在线观看| 欧美资源在线观看| 日韩欧美成人激情| 国产精品国产a级| 在线视频亚洲| 成人在线视频区| 国模精品一区二区| 俄罗斯av网站| 国产精品久久一区二区三区| 操91在线视频| 欧美精品在线观看播放| 亚洲国产精品成人综合| 久久资源在线| 成人a'v在线播放| 国产成人精品一区二区三区免费| 亚洲kkk444kkk在线观看|