淺析多模態機器學習

作者：曹洪偉 2023-05-28 23:26:16

人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關的感覺器官向大腦發送信息，幫助我們理解和感知我們周圍的世界。

GPT-4的發布給ChatGPT帶來了又一次飛躍，ChatGPT不僅支持文字輸入，還能看得懂圖片、甚至是漫畫、梗圖，以GPT-4為代表的多模態大模型非常強大。多模態大模型就是指模型可以處理多種結構/類型的數據，例如GPT-4，它既可以處理你輸入的文本，也可以處理你上傳的圖片。

那么，多模態到底意味著什么呢？

1. 什么是多模態？

人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關的感覺器官向大腦發送信息，幫助我們理解和感知我們周圍的世界。然而，事實上，除了這五種基本的感官之外，還有其他的人類感官是你生活中必不可少的。這些鮮為人知的感覺包括空間意識和平衡等。通過這些感官的交互，也就是多模態，以下是最常見的幾種模態：

GPT-4專注于語言和視覺作為一些基本的模態。所謂融合，是指將來自兩個或多個模態的信息合并以執行預測任務。有兩種類型的融合：- 早期融合：模態將在訓練早期就連接起來。- 晚期融合：我需要在每個模態早期進行一些處理，然后再將它們組合起來。

看一些現實世界的例子，了解什么是MMML應用：

2. 單模態分類模型及一些基本概念

從單模態的分類模型開始，分析視覺、文本和聲音模態的基本處理方法，還試圖澄清了數據集、最近鄰居、神經網絡基礎、推理和模型參數等相關術語和概念。

2.1 單模態的分類模型

從一種模態的分類模型開始，例如視覺分類，給定一張圖片，它是不是一只狗呢？

這是三個二維矩陣疊加在一起形成的彩色圖像，如何解決這個圖像分類問題呢？因為大多數神經網絡或分類器只接受二維矩陣，為了制作這個輸入向量，需要將這個三維向量分解并將它們疊加在一起，就像下面的圖像所示的那樣。然后，才能能夠通過多分類輸出來獲取目標的對象分類。

對于單模態模型，首先有一個輸入，可以是如上所述的3D矩陣，然后將其傳遞到已經訓練好的模型中，得到一個分類（單類或多類）或回歸輸出。

對于單詞、句子或段落這樣的模態而言，有兩種類型：書面（文本）和聲音（轉錄）。舉個例子，假設從一段文本中提取了一個單詞，想要了解這是正面還是負面的情緒。該怎么做呢？

為了簡單起見，可以使用one-hot向量，這是一個非常長的向量，其長度是字典的長度。這個字典是我們的模型從訓練集中創建的，計算出它所發現的所有去重后的單詞。對于每一個單詞，在向量中有一個索引條目。需要注意的是，某些非常低頻的詞語，可能不在字典中。

用這個one-hot向量將作為最大熵模型的輸入向量，進而進行情緒分類，命名實體分類（名字 vs 地方 vs 實體），或者詞性標注（動詞，名詞，形容詞）等。如果想要更細粒度地按單詞運行模型，就可以這樣做。

但是，如果想要處理更大量的文本，比如一句話或一段話，該怎么辦呢？

可以將輸入向量變成一個詞袋向量，但它仍然是一種one-shot編碼，現在對目標文檔中的每個單詞進行編碼，如果一個維度上有這個單詞就是1，否則就是0。然后可以運行同樣的任務，就像上面做的情緒分類一樣。

最后，在看看聲音模態。假設正在聆聽一個音頻，基本上，音頻是一個非常長的一維向量，可以使用此向量并運行分類問題以轉錄語音。在實踐中，人們用時間窗口在音頻信號中切片，并開始處理該數據集以創建Spectogram。在這個音頻中，檢查獲取了多少低頻與高頻成分，以千赫為記錄在Spectogram中。然后，我們將這個Spectogram轉換為模型的輸入向量。

除了僅僅進行轉錄外，還可以使用這些模型來獲取情感分類或語音質量。

2.2 相關術語

數據集是帶有標簽的樣本集合，包括：

訓練集：在這個訓練集上學習分類器
驗證集：通過查看L1或L2函數在此處選擇最佳的超參數，基本上希望看到哪些超參數會帶來最佳的結果。
測試集：在這個保留的測試集上評估分類器。

最近鄰居：最簡單但仍然是最有效的分類器之一。 - 在訓練時間，時間復雜度為O（1），測試時間為O（N） - 它使用距離度量來找到最近的鄰居。 - 它將使用L1（曼哈頓）或L2（歐幾里得）距離。

2.3 神經網絡基礎

根據激活函數的不同，一個神經元可以被稱為一個線性分類器。神經網絡中每個部分的組成和功能如下：

1）定義一個神經元的得分函數，目標是預測該類別標簽的得分。例如，對于圖像分類問題“這是一只狗、貓、鳥還是豬？”，可以將為鴨子、貓、鳥和豬各設置一個神經元。具有線性激活函數的神經元如下圖所示：

接下來，在這里學習權重和偏置值。

定義損失函數（可能是非線性的）
優化參數的權重（考慮梯度下降）

然后，考慮多層前饋神經網絡。

這個多層網絡由一個輸入層，幾個隱藏層，以及一個可能包含激活函數的輸出層組成。每個前面的隱藏層的輸出作為后面層的輸入。

最后，我還有兩個概念需要澄清：

推理：用于測試。推理可以被看作是通過輸入獲得評分/輸出的過程。它既是獲得這個分數的行為，也涉及到它的使用。
模型參數：在訓練時使用，將使用基于梯度的方法進行優化。基本上，需要有固定訓練的數據，通過學習得到最小損失的權重和偏差。

3. 多模態機器學習的核心問題

多模態是一種新的人工智能范式，其中各種模態（文本、語音、視頻、圖像）與多種智能處理算法結合，以實現更高的性能。

業界有多種實現多模態的方式，通過多模態機器學習，希望確保該空間中的相似性對應著相應概念的相似性，通過存在的其他模態，給出缺失的模態內容。多模態應用目前包括各種任務，如信息檢索、映射和融合。

在多模態機器學習中，大約有五個核心問題——表示、翻譯、對齊、融合和協同學習。

3.1 多模態的數據表達

多模態數據的最大挑戰是以一種方式總結來自多個模態（或視圖）的信息，以便綜合使用互補信息，同時過濾掉冗余的模態部分。由于數據的異質性，一些挑戰自然而然地出現，包括不同類型的噪聲、模態（或視圖）的對齊以及處理缺失數據的技術。目前，主要有兩種的方法來完成多模態表達：聯合表達和協調表達。

協調表達

多模態數據必須在非常弱的（它們的空間不重疊）或非常強的（最終成為聯合表示）之間協調，通過結構化的協調來完成嵌入。

協調表達涉及將所有形式投射到它們的空間中，但這些空間使用約束進行協調。這種方法對根本上非常不同并且可能不適用于聯合空間的形式更有用。由于自然界中形式的多樣性，協調表達在多模態表示領域中比聯合表達具有巨大優勢，使用約束進行協調是一種強大的方法。

聯合表達

聯合表達涉及將所有模態投影到一個共同的空間，同時保留來自給定模態的信息。訓練和推理時需要所有模態的數據，這可能會使處理缺失數據變得困難。另外，通過遞歸模型，可以在每個時間步融合模態的不同視圖，最終使用聯合表示完成手頭的任務（如分類，回歸等）。

對于所有模態在推斷時都存在的任務，聯合表達更適合。另一方面，如果缺少其中一種模態，則協調表達更適合。

3.2 多模態機器翻譯

多模態機器翻譯涉及從多個模態中提取信息，基于這樣的假設，附加的模態將包含有用的輸入數據的替代視圖。在這個領域中最重要的任務是口語翻譯、圖像引導翻譯和視頻引導翻譯，它們分別利用音頻和視覺模態。這些任務與它們的單語對應任務——語音識別、圖像字幕和視頻字幕——不同之處在于需要模型生成不同語言的輸出。(來源) 下面我們可以看到一個圖像字幕的例子出了大錯:

上述模型無法將視覺場景與語法句子進行同步理解，這對于強大的多模態模型至關重要。多模態翻譯模型有兩種類型：基于示例的和生成式的。

基于示例的模型將存儲一個翻譯詞典，如上所示，然后將其從一種語言模態映射到另一種。在推理過程中，模型將從字典中提取最接近的匹配項，或通過推斷字典提供的信息創建翻譯。這些模型需要存儲更多的信息，運行速度非常緩慢。

生成模型在推理時不需要參考訓練數據即可產生翻譯。生成模型有3個類別，分別是基于語法的、變壓器模型和連續生成模型。

3.3 多模態的對齊

多模態對齊是找到兩種或更多模態之間的關系和對應。

為了對齊不同的模態，模型必須測量它們之間的相似度并處理長距離依賴關系。多模態對齊涉及的其他困難包括缺乏注釋數據集、設計好的模態相似性度量以及存在多個正確的對齊方式。主要有兩種類型的多模態對齊：- 顯式對齊：其目標是找到模態之間的對應關系，并對同一事件的不同模態數據進行對齊。例如：將語音信號與轉錄對齊。- 隱式對齊：對齊有助于解決不同任務時的模型（例如“注意力”模型）。它是多個下游任務（如分類）的先驅。例如：機器翻譯

3.4 多模態的融合

多模態融合可能是更重要的問題和挑戰之一。融合是將來自兩個或兩個以上模態的信息結合起來解決分類或回歸問題的實踐。使用多個模態提供更強大的預測能力，使我們能夠捕獲互補信息。即使其中一個模態缺失，多模態融合模型仍可使用。

3.5 協同學習

協同學習是將學習或知識從一種模態轉移到另一種模態的挑戰。對于在資源有限的模態下建立模型——如缺乏注釋數據、嘈雜的輸入和不可靠的標簽，從資源豐富的模態中轉移知識是相當有用的。

小結

多模態機器學習是一種新的人工智能范式，結合各種模態和智能處理算法以實現更高的性能。多模態機器學習中的核心問題包括表示、翻譯、對齊、融合和協同學習。其中，多模態數據的表達是最大的挑戰之一，需要使用聯合表達和協調表達等方法。多模態機器翻譯涉及從多個模態中提取信息，基于這樣的假設，附加的模態將包含有用的輸入數據的替代視圖。多模態對齊是找到兩種或更多模態之間的關系和對應，多模態融合可能是更重要的問題和挑戰之一，協同學習是將學習或知識從一種模態轉移到另一種模態的挑戰。

【參考資料】

http://multicomp.cs.cmu.edu/research/multimodal-representation
https://scholar.harvard.edu/files/diane/files/NAS.pdf

責任編輯：武曉燕來源：喔家ArchiSelf

多模態機器學習大腦

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看