綜述170篇「自監督學習」推薦算法，港大發布SSL4Rec：代碼、資料庫全面開源！

作者：新智元 2024-05-09 11:30:17

人工智能新聞

本文全面綜述了自監督學習（SSL）在推薦系統中的應用，深入分析了逾170篇論文。文中提出了一個涵蓋九大推薦場景的自監督分類體系，詳細探討了對比學習、生成學習和對抗學習三種SSL范式，并在文中討論了未來研究方向。

推薦系統對于應對信息過載挑戰至關重要，它們根據用戶的個人偏好提供定制化推薦。近年來深度學習技術極大地推動了推薦系統的發展，提升了對用戶行為和偏好的洞察力。

然而，由于數據稀疏性的問題，傳統的監督學習方法在實際應用中面臨挑戰，這限制了它們有效學習用戶表示的能力。

為了克服這一難題，自監督學習（SSL）技術應運而生，其利用數據的內在結構生成監督信號，不完全依賴于標記數據。

這種方法使得推薦系統能夠利用未標記的數據提取有意義的信息，即使在數據稀疏的情況下也能做出準確的預測和推薦。

文章地址：https://arxiv.org/abs/2404.03354

開源資料庫：https://github.com/HKUDS/Awesome-SSLRec-Papers

開源代碼庫：https://github.com/HKUDS/SSLRec

本篇綜述全面回顧了專為推薦系統設計的自監督學習框架，并深入分析了超過170篇相關論文。我們探討了九種不同的應用場景，全面理解了SSL在不同情境下如何增強推薦系統。

對于每個領域，我們都詳細討論了不同的自監督學習范式，包括對比學習、生成學習和對抗學習，展示了SSL如何在不同情境下提升推薦系統的性能。

1 推薦系統

推薦系統的研究涵蓋了不同場景下的各種任務，如協同過濾、序列推薦和多行為推薦等等。這些任務擁有不同的數據范式和目標。這里，我們首先提供一個通用的定義，不深入到不同推薦任務的具體變體中。在推薦系統中，存在兩個主要的集合：用戶集合，記為，和物品集合，記為。

然后，使用一個交互矩陣來表示用戶和物品之間的記錄交互。在這個矩陣中，如果用戶ui與物品vj有過交互，則矩陣的條目Ai,j被賦予值1，否則為0。

交互的定義可以根據不同的情境和數據集進行調整（例如，觀看電影、在電子商務網站上點擊或進行購買）。

此外，在不同的推薦任務中，存在不同的輔助觀察數據，記為X，例如在知識圖譜增強推薦中，X包含了包含外部物品屬性的知識圖譜，這些屬性包括不同的實體類型和相應的關系。

而在社交推薦中, X包含了用戶級別的關系，如友誼。基于上述定義，推薦模型優化了一個預測函數f(?)，旨在準確估計任何用戶u和物品v之間的偏好分數：

偏好分數yu,v表示用戶u和物品v交互的可能性。

基于這個分數，推薦系統可以通過根據估計的偏好分數提供物品的排名列表，向每個用戶推薦未交互的物品。在綜述中，我們進一步探討不同推薦場景下(A,X)的數據形式以及自監督學習其中的作用。

2 推薦系統中的自監督學習

過去幾年中，深度神經網絡在監督學習中表現出色，這在包括計算機視覺、自然語言處理和推薦系統在內的各個領域都有所體現。然而由于對標記數據的重度依賴，監督學習在處理標簽稀疏性問題時面臨挑戰，這也是推薦系統中的一個常見問題。

為了解決這一限制，自監督學習作為一種有前景的方法應運而生，它利用數據本身作為學習的標簽。推薦系統中的自監督學習包含三種不同的范式：對比學習、生成學習和對抗學習。

2.1 對比學習 (Contrastive Learning)

對比學習作為一種突出的自監督學習方法，其主要目標是最大化從數據中增強的不同視圖之間的一致性。在推薦系統的對比學習中，目標是最小化以下損失函數：

E?°ω?表示對比視圖創建操作，不同的基于對比學習的推薦算法有不用的創建過程。每個視圖的構造由數據增強過程ω?（可能涉及在增強圖中的節點/邊）以及嵌入編碼過程E?組成。

最小化的目標是獲得穩健的編碼函數，最大化視圖之間的一致性。這種跨視圖的一致性可以通過互信息最大化或實例判別等方法實現。

2.2 生成學習 (Generative Learning)

生成學習的目標是理解數據的結構和模式，以學習有意義的表示。它優化了一個深度編碼器-解碼器模型，該模型重建缺失或損壞的輸入數據。

編碼器從輸入中創建潛在表示，而解碼器從編碼器輸出重建原始數據。目標是最小化重建和原始數據之間的差異，具體如下所示：

這里，ω表示掩碼或擾動這樣的操作。D°E表示編碼和解碼以重建輸出的過程。最近的研究也引入了一個僅解碼器的架構，該架構在沒有編碼器-解碼器設置的情況下有效地重建數據。這種方法使用單一模型（例如，Transformer）進行重建，通常應用于基于生成學習的序列化推薦。損失函數的格式取決于數據類型，例如對于連續數據使用均方誤差，對于分類數據使用交叉熵損失。

2.3 對抗學習 (Adversarial Learning)

對抗學習是一種訓練方法，它使用生成器G(?)生成高質量的輸出，并包含一個鑒別器Ω(?)，該鑒別器確定給定樣本是真實的還是生成的。與生成學習不同，對抗學習的區別在于包括了一個鑒別器，它通過競爭性互動來提高生成器生成高質量輸出的能力，以欺騙鑒別器。

因此，對抗學習的學習目標可以定義如下：

這里，變量x表示從底層數據分布中獲得的真實樣本，而表示由生成器G(?)生成的合成樣本。在訓練過程中，生成器和鑒別器都通過競爭性互動提高它們的能力。最終，生成器致力于生成高質量的輸出，這些輸出對于下游任務是有利的。

3 分類體系（Taxonomy）

在本節中，我們提出了自監督學習在推薦系統中的應用的全面分類體系。如前所述，自監督學習范式可以分為對比學習、生成學習和對抗學習三個類別。因此，我們的分類體系基于這三個類別構建，提供了每個類別更深入的見解。

3.1 推薦系統中的對比學習

對比學習（CL）的基本原理是最大化不同視圖之間的一致性。因此，我們提出了一個以視圖為中心的分類體系，包含應用對比學習時考慮的三個關鍵組成部分：創建視圖、配對視圖以最大化一致性，以及優化一致性。

視圖創建（View Creation）。創建的視圖強調了模型要關注的多種數據方面。它可以結合全局協同信息以改善推薦系統處理全局關系的能力，或者引入隨機噪聲以增強模型的魯棒性。

我們將輸入數據（例如，圖、序列、輸入特征）的增強視為數據層面的視圖創建，而隱藏特征在推理過程中的增強則視為特征層面的視圖創建。我們提出了一個層次化的分類體系，包括從基本數據層面到神經模型層面的視圖創建技術。

數據層面 Data-based：在基于對比學習的推薦系統中，通過增強輸入數據來創建多樣化的視圖。這些增強的數據點隨后通過模型進行處理。不同視圖所得到的輸出嵌入最終被配對并用于對比學習。增強方法根據推薦場景的不同而變化。例如，圖數據可以采用節點/邊的丟棄的方法，而序列可以使用掩碼、裁剪和替換的增強方式。
特征層面 Feature-based：除了直接從數據生成視圖外，一些方法還考慮在模型前向過程中對編碼的隱藏特征進行增強。這些隱藏特征可以包括圖神經網絡層的節點嵌入或Transformer中的令牌向量。通過多次應用各種增強技術或引入隨機擾動，模型的最終輸出可以被視為不同的視圖。
模型層面 Model-based：數據層面和特征層面的增強都是非自適應的，因為它們是非參數的。因此也有方法使用模型來生成不同的視圖。這些視圖包含了基于模型設計的特定信息。例如，意圖解耦神經模塊可以捕獲用戶意圖，而超圖模塊可以捕獲全局關系。

配對采樣（Pair Sampling）。視圖創建過程為數據中的每個樣本生成至少兩個不同的視圖。對比學習的核心在于最大化地對齊某些視圖（即拉近它們），同時推開其他視圖。

為此，關鍵是確定應拉近的正樣本對，并識別形成負樣本對的其他視圖。這種策略稱為配對采樣，它主要由兩種配對采樣方法組成：

自然采樣 Natural Sampling：配對采樣的一種常見方法是直接而非啟發式的，我們稱之為自然采樣。正樣本對由同一數據樣本生成的不同視圖形成，而負樣本對由不同數據樣本的視圖形成。在存在一個中心視圖的情況下，例如從整個圖中派生出的全局視圖，局部-全局關系也可以自然的形成正樣本對。這種方法在大多數對比學習推薦系統中得到廣泛應用。
基于分數的采樣 Score-based Sampling：配對采樣的另一種方法是基于分數的采樣。在這種方法中，一個模塊計算樣本對的分數以確定正樣本或負樣本對。例如，兩個視圖之間的距離可以用于判斷正負樣本對。或者，可以在視圖上應用聚類，其中同一聚體內的正樣本對，不同聚體內的為負樣本對。對于一個錨視圖，一旦確定了正樣本對，其余的視圖自然被認為是負視圖，可以與給定視圖配對以創建負樣本對，允許推開。

對比學習目標（Contrastive Objective）。對比學習中的學習目標是最大化正樣本對之間的互信息，這反過來又可以提高學習推薦模型的性能。由于直接計算互信息不可行，通常使用可行的下界作為對比學習中的學習目標。然而，也有直接將正樣本對拉近的顯式目標。

InfoNCE-based：InfoNCE是噪聲對比估計的一個變體。其優化過程旨在拉近正樣本對，推開負樣本對。
JS-based：除了使用InfoNCE估計互信息外，還可以使用Jensen-Shannon散度來估計下界。派生出的學習目標類似于將InfoNCE與標準二元交叉熵損失結合起來，應用于正樣本對和負樣本對。
顯式目標 Explicit Objective：基于InfoNCE和基于JS的目標都旨在最大化互信息的估計下界，以最大化互信息本身，這在理論上是有保證的。此外，還有顯式目標，如最小化均方誤差或最大化樣本對內的余弦相似度，直接對齊正樣本對。這些目標被稱為顯式目標。

3.2 推薦系統中的生成學習

在生成式自監督學習中，主要目標是最大化真實數據分布的似然估計。這允許學習到的有意義的表示捕獲數據中的底層結構和模式，然后可以用于下游任務。在我們的分類體系中，我們考慮了兩個方面來區分不同的基于生成學習的推薦方法：生成學習范式和生成目標。

生成學習范式（Generative Learning Paradigm）。在推薦的背景下，采用生成學習的自監督方法可以被分類為三個范式：

掩碼自編碼（Masked Autoencoding）：在掩碼自編碼器中，學習過程遵循掩碼-重建方法，其中模型從部分觀測中重建完整數據。
變分自編碼（Variational Autoencoding）：變分自編碼器是另一種最大化似然估計的生成方法，具有理論保證。通常它涉及將輸入數據映射到遵循正態高斯分布的潛在因素上。隨后模型基于抽樣的潛在因素重建輸入數據。
去噪擴散（Denoised Diffusion）：去噪擴散是一種生成模型，它通過反轉噪聲過程生成新的數據樣本。在前向過程中，高斯噪聲被添加到原始數據中，經過多個步驟，創建了一系列噪聲版本。在逆向過程中，模型學會從噪聲版本中去除噪聲，逐步恢復原始數據。

生成目標（Generation Target）。在生成學習中，將數據的哪種模式視為生成的標簽，是另一個需要考慮的問題，以帶來有意義的輔助自監督信號。一般來說，生成目標對于不同的方法以及在不同的推薦場景中各不相同。例如，在序列推薦中，生成目標可以是序列中的物品，目的是模擬序列中物品之間的關系。在交互圖推薦中，生成目標可以是圖中的節點/邊，目的是捕捉圖中的高級拓撲相關性。

3.3 推薦系統中的對抗學習

在推薦系統的對抗學習中，鑒別器在區分生成的虛假樣本和真實樣本中起著至關重要的作用。與生成學習類似，我們提出的分類體系從學習范式和鑒別目標兩個角度涵蓋了推薦系統中的對抗學習方法：

對抗學習范式（Adversarial Learning Paradigm）。在推薦系統中，對抗學習包括兩種不同的范式，這取決于鑒別器的判別損失是否可以以可微的方式反向傳播到生成器。

可微對抗學習（Differentiable AL）：第一種方法涉及在連續空間中表示的對象，鑒別器的梯度可以自然地反向傳播到生成器進行優化。這種方法被稱為可微對抗學習。
不可微對抗學習（Non-Differentiable AL）：另一種方法涉及鑒別推薦系統輸出，特別是推薦商品。然而，由于推薦結果是離散的，反向傳播變得具有挑戰性，形成了非可微情況，其中鑒別器的梯度不能直接傳播到生成器。為了解決這個問題，引入了強化學習和策略梯度。在這種情況下，生成器作為一個代理，通過預測基于之前交互的商品來與環境互動。鑒別器作為獎勵函數，提供獎勵信號來指導生成器的學習。鑒別器的獎勵被定義為強調影響推薦質量的不同因素，并優化以分配更高的獎勵給真實樣本而不是生成樣本，引導生成器產生高質量的推薦。

鑒別目標（Discrimination Target）。不同推薦算法導致生成器生成不同的輸入，這些輸入隨后被饋送到鑒別器進行鑒別。這個過程旨在增強生成器生成高質量內容的能力，從而接近真實情況。具體的鑒別目標是根據特定的推薦任務設計的。

3.4 多元的推薦場景

在本綜述中，我們從九種不同的推薦場景深入討論不同的的自監督學習方法在其中的設計方式，這九種推薦場景分別為（具體內容歡迎到文中了解）：

General Collaborative Filtering (通用協同過濾) - 這是推薦系統中最基本的形式，主要依賴于用戶和物品之間的交互數據來生成個性化推薦。
Sequential Recommendation (序列推薦) - 考慮用戶與物品交互的時間序列，目的是預測用戶的下一個可能交互物品。
Social Recommendation (社交推薦) - 結合社交網絡中的用戶關系信息，以提供更加個性化的推薦。
Knowledge-aware Recommendation (知識感知推薦) - 利用知識圖譜等結構化知識來增強推薦系統的性能。
Cross-domain Recommendation (跨域推薦) - 將從一個領域學到的用戶偏好應用到另一個領域中，以改善推薦效果。
Group Recommendation (群體推薦) - 為具有共同特征或興趣的群體提供推薦，而不是為單個用戶。
Bundle Recommendation (捆綁推薦) - 推薦一組物品作為一個整體，通常用于促銷或套餐服務。
Multi-behavior Recommendation (多行為推薦) - 考慮用戶對物品的多種交互行為，如瀏覽、購買、評分等。
Multi-modal Recommendation (多模態推薦) - 結合物品的多種模態信息，如文本、圖像、聲音等，以提供更豐富的推薦。

4 結語

本文全面綜述了自監督學習（SSL）在推薦系統中的應用，深入分析了逾170篇論文。我們提出了一個涵蓋九大推薦場景的自監督分類體系，詳細探討了對比學習、生成學習和對抗學習三種SSL范式，并在文中討論了未來研究方向。

我們強調了SSL在處理數據稀疏性、提升推薦系統性能方面的重要性，并指出了將大型語言模型集成到推薦系統中、自適應動態推薦環境以及為SSL范式建立理論基礎等潛在研究方向。希望本綜述能為研究人員提供寶貴的資源，激發新的研究思路，推動推薦系統的進一步發展。

責任編輯：張燕妮來源：新智元

AI 訓練

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看