国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

快手:通過強化學習提升用戶留存

人工智能 新聞
本文研究如何通過 RL 技術提升推薦系統用戶留存,該工作將留存優化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優化留存并有效地應對留存信號的幾個關鍵挑戰。

短視頻推薦系統的核心目標是通過提升用戶留存,牽引 DAU 增長。因此留存是各APP的核心業務優化指標之一。然而留存是用戶和系統多次交互后的長期反饋,很難分解到單個 item 或者單個 list,因此傳統的 point-wise 和 list-wise 模型難以直接優化留存。

強化學習(RL)方法通過和環境交互的方式優化長期獎勵,適合直接優化用戶留存。該工作將留存優化問題建模成一個無窮視野請求粒度的馬爾科夫決策過程(MDP),用戶每次請求推薦系統決策一個動作(action),用于聚合多個不同的短期反饋預估(觀看時長、點贊、關注、評論、轉發等)的排序模型打分。該工作目標是學習策略(policy),最小化用戶多個會話的累計時間間隔,提升 App 打開頻次進而提升用戶留存。

然而由于留存信號的特性,現有 RL 算法直接應用存在以下挑戰:1)不確定性:留存信號不只由推薦算法決定,還受到許多外部因素干擾;2)偏差:留存信號在不同時間段、不同活躍度用戶群體存在偏差;3)不穩定性:與游戲環境立即返回獎勵不同,留存信號通常在數小時至幾天返回,這會導致 RL 算法在線訓練的不穩定問題。

該工作提出 Reinforcement Learning for User Retention algorithm(RLUR)算法解決以上挑戰并直接優化留存。通過離線和在線驗證,RLUR 算法相比 State of Art 基線能夠顯著地提升次留指標。RLUR 算法已經在快手 App 全量,并且能夠持續地拿到顯著的次留和 DAU 收益,是業內首次通過 RL 技術在真實生產環境提升用戶留存。該工作已被 WWW 2023 Industry Track 接收。

圖片

作者:蔡慶芃,劉殊暢,王學良,左天佑,謝文濤,楊斌,鄭東,江鵬

論文地址:https://arxiv.org/pdf/2302.01724.pdf

問題建模

如圖 1(a)所示,該工作把留存優化問題建模成一個無窮視野請求粒度馬爾科夫決策過程(infinite horizon request-based Markov Decision Process),其中推薦系統是 agent,用戶是環境。用戶每次打開 App,開啟一個新的 session i。如圖 1(b),用戶每次請求圖片推薦系統根據用戶狀態圖片決策一個參數向量圖片,同時 n 個預估不同短期指標(觀看時長、點贊、關注等)的排序模型對每個候選視頻 j 進行打分圖片。然后排序函數輸入 action 以及每個視頻的打分向量,得到每個視頻的最終打分,并選出得分最高的 6 個視頻展示給用戶,用戶返回 immediate feedback圖片。 當用戶離開 App 時本 session 結束,用戶下一次打開 App session i+1 開啟,上一個 session 結尾和下一個 session 開始的時間間隔被稱為回訪時間(Returning time),圖片。  該研究的目標是訓練策略最小化多個 session 的回訪時間之和。

圖片

RLUR 算法

該工作首先討論怎么預估累計回訪時間,然后提出方法解決留存信號的幾個關鍵挑戰。這些方法匯總成 Reinforcement Learning for User Retention algorithm,簡寫為 RLUR。

回訪時間預估

如圖 1(d)所示,由于動作是連續的,該工作采取 DDPG 算法的 temporal difference(TD)學習方式預估回訪時間。

圖片

由于每個 session 最后一次請求才有回訪時間 reward,中間 reward 為 0,作者設置折扣因子圖片在每個 session 最后一次請求取值為圖片,其他請求為 1。這樣的設定能夠避免回訪時間指數衰減。并且從理論上可以證明當 loss(1)為 0 時,Q 實際上預估多個 session 的累計回訪時間,圖片。 

解決延遲獎勵問題

由于回訪時間只發生在每個 session 結束,這會帶來學習效率低的問題。因而作者運用啟發式獎勵來增強策略學習。由于短期反饋和留存是正相關關系,因而作者把短期反饋作為第一種啟發式獎勵。并且作者采用 Random Network Distillation(RND)網絡來計算每個樣本的內在獎勵作為第二種啟發式獎勵。具體而言 RND 網絡采用 2 個相同的網絡結構,一個網絡隨機初始化 fixed,另外一個網絡擬合這個固定網絡,擬合 loss 作為內在獎勵。如圖 1(e)所示,為了減少啟發式獎勵對留存獎勵的干擾,該工作學習一個單獨的 Critic 網絡,用來估計短期反饋和內在獎勵之和。即 圖片

解決不確定性問題

由于回訪時間受到很多推薦之外的因素影響,不確定度高,這會影響學習效果。該工作提出一個正則化方法來減少方差:首先預估一個分類模型圖片來預估回訪時間概率,即預估回訪時間是否短于圖片 ;然后用馬爾可夫不等式得到回訪時間下界,圖片; 最后用真實回訪時間 / 預估回訪時間下界作為正則化的回訪 reward。

解決偏差問題

由于不同活躍度群體的行為習慣差異大,高活用戶留存率高并且訓練樣本數量也顯著多于低活用戶,這會導致模型學習被高活用戶主導。為解決這個問題,該工作對高活和低活不同群體學習 2 個獨立策略,采用不同的數據流進行訓練,Actor 最小化回訪時間同時最大化輔助獎勵。如圖 1(c),以高活群體為例,Actor loss 為:

圖片

解決不穩定性問題

由于回訪時間信號延遲,一般在幾個小時到數天內返回,這會導致 RL 在線訓練不穩定。而直接使用現有的 behavior cloning 的方式要么極大限制學習速度要么不能保證穩定學習。因而該工作提出一個新的軟正則化方法,即在 actor loss 乘上一個軟正則化系數:

圖片

這個正則化方法本質上是一種制動效應:如果當前學習策略和樣本策略偏差很大,這個 loss 會變小,學習會趨于穩定;如果學習速度趨于穩定,這個 loss 重新變大,學習速度加快。當圖片,代表著對學習過程不加任何約束。

離線實驗

該工作把 RLUR 和 State of the Art 的強化學習算法 TD3,以及黑盒優化方法 Cross Entropy Method (CEM) 在公開數據集 KuaiRand 進行對比。該工作首先基于 KuaiRand 數據集搭建一個留存模擬器:包含用戶立即反饋,用戶離開 Session 以及用戶回訪 App 三個模塊,然后在這個留存模擬器評測方法。

圖片

表 1 說明 RLUR 在回訪時間和次留指標顯著優于 CEM 和 TD3。該研究進行消融實驗,對比 RLUR 和只保留留存學習部分 (RLUR (naive)),可以說明該研究針對留存挑戰解決方法的有效性。并且通過圖片圖片對比,說明最小化多個 session 的回訪時間的算法效果優于只最小化單個 session 的回訪時間。

在線實驗

圖片

該工作在快手短視頻推薦系統進行 A/B 測試對比 RLUR 和 CEM 方法。圖 2 分別顯示 RLUR 對比 CEM 的 App 打開頻次、DAU、次留、7 留的提升百分比。可以發現 App 打開頻次在 0-100 天逐漸提升乃至收斂。并且也拉動次留、7 留以及 DAU 指標的提升(0.1% 的 DAU 以及 0.01% 的次留提升視為統計顯著)。

總結與未來工作

本文研究如何通過 RL 技術提升推薦系統用戶留存,該工作將留存優化建模成一個無窮視野請求粒度的馬爾可夫決策過程,該工作提出 RLUR 算法直接優化留存并有效地應對留存信號的幾個關鍵挑戰。RLUR 算法已在快手 App 全量,能夠拿到顯著的次留和 DAU 收益。關于未來工作,如何采用離線強化學習、Decision Transformer 等方法更有效地提升用戶留存是一個很有前景的方向。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-30 16:37:29

2024-04-03 07:56:50

推薦系統多任務推薦

2025-08-01 09:05:00

2025-07-24 09:05:00

2025-05-30 04:00:00

IBMRLVRGRPO

2025-04-01 09:10:00

2018-04-21 06:41:39

Q-learning算法函數

2023-10-19 13:25:00

AI訓練

2025-08-07 09:16:41

2025-10-11 04:00:00

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-09-23 12:32:22

2023-11-07 07:13:31

推薦系統多任務學習

2025-10-09 10:47:38

2025-09-11 06:57:11

2025-10-27 08:44:00

2025-03-07 09:24:00

2025-10-22 08:52:23

2025-10-30 01:22:00

強化學習RFT大模型
點贊
收藏

51CTO技術棧公眾號

在线成人中文字幕| 伦理在线一区| 国产91亚洲精品| 中文字幕一区二区三区5566| 草裙成人精品一区二区三区 | 香蕉久久99| 国产一区二区三区四区五区美女 | 僵尸再翻生在线观看免费国语| 91tv官网精品成人亚洲| 久久精品一二三| 亚洲日本中文字幕免费在线不卡| 国产欧美综合精品一区二区| 男女av在线| 日韩成人精品一区| 亚洲六月丁香色婷婷综合久久| 日韩中文字幕精品| 高清欧美精品xxxxx| 少妇精品视频一区二区免费看| 日韩高清在线观看| 亚洲国产小视频| 亚洲小视频在线播放| 亚洲mmav| 欧美精三区欧美精三区| 欧洲精品在线一区| 91福利在线尤物| av成人动漫在线观看| 久久亚洲电影天堂| 国产精品久久久毛片| 精品在线播放| 在线观看免费成人| 久久久久久久久久久久久久久久av| 日本高清在线观看wwwww色| 日韩一级网站| 亚洲欧美国产制服动漫| 国产精品视频一二三四区| 97人人做人人爽香蕉精品| 成人午夜伦理影院| 久久成年人视频| av资源中文在线| 日韩免费高清av| 日韩久久久久久久久久久久| 精品国产一区二区三区在线| av自拍一区| 精品一区二区日韩| 日韩精品在线免费播放| 无码人妻h动漫| 欧美中文一区| 欧美性大战久久| 日韩av一级大片| 888av在线视频| 欧美日韩一区二区三区在线看| 欧美日韩亚洲一区二区三区四区| 桃花岛成人影院| 亚洲四区在线观看| 日本免费高清一区| 日韩电影在线免费看| 亚洲国产精品一区二区第一页| 亚洲成a人片777777久久| 亚洲一区二区在线免费观看视频 | 久久国产三级精品| 亚洲一区二区三区四区在线| 女生裸体视频网站免费观看| 亚洲精品1区2区| 伊是香蕉大人久久| 欧美天堂一区二区| 久久久免费电影| 免费在线观看av| 欧美成人精品1314www| 99热com| 亚洲自拍偷拍网| 日韩av在线免播放器| 激情乱色小说视频| 免费成人美女在线观看.| 青青在线视频一区二区三区| 人成在线免费网站| 欧美日韩激情网| 动漫av免费观看| 日日骚欧美日韩| 女人被男人躁得好爽免费视频| 成人av电影免费在线播放| 亚洲综合中文字幕68页| www.日韩| 欧美视频一区二区三区在线观看| av文字幕在线观看| 亚洲人亚洲人成电影网站色| 日本国产在线| 中文字幕在线不卡视频| 久久av喷吹av高潮av| 亚洲h色精品| 色噜噜狠狠一区二区三区| 日韩在线视屏| 亚洲成色最大综合在线| 久久午夜老司机| 桥本有菜av在线| 久久久久国产成人精品亚洲午夜| 中文在线а天堂av| 国产精品成人免费在线| 97电影在线观看| 亚洲一区二区四区蜜桃| 性欧美videoshd高清| 在线精品亚洲一区二区不卡| 亚洲承认视频| 2022国产精品| 日韩精品导航| 欧美色图亚洲自拍| 一区二区中文视频| 欧美变态另类刺激| 免费美女久久99| 97碰碰碰免费公开在线视频| 高清在线观看日韩| 色一情一乱一伦一区二区三区丨| 99天天综合性| 亚洲视频tv| 欧美日本精品一区二区三区| 头脑特工队2在线播放| 亚洲一二三区在线观看| 爱啪视频在线观看视频免费| 国产精品欧美亚洲777777| 97品白浆高清久久久久久| 国产自产在线视频一区| 国产精品久久久久久久午夜片 | 亚洲黄色高清| 午夜免费看视频| 国产精品美女视频| 美女网站免费观看视频| 欧美一区日本一区韩国一区| 国产在线小视频| 日本高清视频一区二区| 四虎影视在线播放| 日韩视频精品在线| 日韩二区在线观看| 性感美女激情视频在线观看| 欧美久久精品一级黑人c片| 电影一区中文字幕| 日韩一区二区福利| 久久都是精品| 艳母动漫在线观看| 欧美亚一区二区| 日韩av在线中文字幕| 国产免费又粗又猛又爽| 亚洲日韩欧美视频一区| 日韩高清不卡一区二区| 自拍视频在线播放| 91中文字幕在线观看| 一区二区三区国产| 男人的天堂在线免费视频| 久久久久久久爱| 97久久视频| 国产伦精品一区二区三区四区视频| 久久激情中文| 在线观看av网站| 欧美一级免费观看| 日本а中文在线天堂| 欧美三日本三级少妇三99| 欧美在线999| 狠狠爱www人成狠狠爱综合网| 五月天婷亚洲天综合网鲁鲁鲁| 欧美香蕉大胸在线视频观看| 大地资源网3页在线观看| 亚洲天堂网在线观看| 亚洲我射av| 国产精品成人久久久久| 伊人久久婷婷| 欧美一级黄色录像片| 亚洲第一福利视频| 天堂va在线高清一区| 国产精品96久久久久久| 亚洲欧美网站| 日本久久久久久久久久久久| 久久久久久com| 欧美国产视频在线| 日本一级在线观看| 六十路在线观看| 日本a在线免费观看| 亚洲的天堂在线中文字幕| 久久国产精品72免费观看| 国产激情在线播放| 国产精品自拍合集| 久久久成人av| av一区二区在线播放| 在线观看欧美激情| 亚洲乱码国产乱码精品精| 粉嫩av一区二区三区| 精品亚洲a∨一区二区三区18| 国产精品久久精品国产| 欧美色中文字幕| 亚洲伊人观看| 欧洲一区精品| 九九99九九精彩| 精品福利av导航| 亚洲成人一品| 中文字幕99| 日本欧美在线视频免费观看| 日韩有码免费视频| 久久99精品久久久久久国产越南| 欧美裸体视频| 亚洲欧美激情网| 95av在线视频| 日韩精品福利网站| 国产精品护士白丝一区av|