国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構

發布于 2025-5-23 06:57
瀏覽
0收藏

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區圖片

近年來,人工智能領域在多模態學習方面取得了顯著進展,相關模型能夠理解和關聯圖像與文本等不同數據類型的信息。OpenAI 的 CLIP(對比語言 - 圖像預訓練)和 Google 的 SigLIP(語言 - 圖像預訓練的 Sigmoid 損失函數)是其中最具影響力的成果。

這些模型革新了機器對視覺和文本信息的解讀與關聯方式,使得從圖像分類到零樣本學習等各類應用成為可能。本文將對 CLIP 和 SigLIP 的架構、訓練范式及關鍵差異進行剖析。

1. CLIP:對比語言 - 圖像預訓練(2021 年)

CLIP 由 OpenAI 于 2021 年推出,是一種開創性模型,能夠將圖像和文本表示對齊到共享嵌入空間中。與依賴特定任務標記數據集的傳統監督學習方法不同,CLIP 采用對比學習目標,在無需針對特定任務進行微調的情況下,能夠廣泛泛化到多種任務中。

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

1.1 CLIP 架構

CLIP 由以下兩個核心組件構成:

  • 圖像編碼器:通常采用 Vision Transformer(ViT)或類似 ResNet 的卷積神經網絡,將圖像轉化為固定長度的向量嵌入。
  • 文本編碼器:基于 Transformer 的語言模型(與 BERT 或 GPT 架構相似),把文本描述編碼為與圖像嵌入維度相同的向量嵌入。

這兩個編碼器協同工作,將圖像和文本映射到共享潛在空間。在此空間中,語義相關的圖像 - 文本對(如狗的圖像與 “一張狗的照片” 這一標題)彼此靠近,而語義不相關的對則相距較遠。

1.2 CLIP 訓練目標

CLIP 在約 4 億個從網絡爬取的圖像 - 文本對上進行訓練。訓練過程采用受 InfoNCE(噪聲對比估計)啟發的對比損失函數。對于包含 N 個圖像 - 文本對的批次:

  • 計算所有 N×N 種圖像和文本嵌入組合的余弦相似度。
  • 目標是最大化 N 個正確(匹配)對的相似度,同時最小化 N2?N 個錯誤(不匹配)對的相似度。
  • 通過優化相似度分數上的對稱交叉熵損失實現。

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

同樣計算文本到圖像方向的損失,總損失為兩者的平均值。

其中, 是控制分布軟硬度的溫度參數。這種對稱形式確保圖像和文本兩種模態的表示能有效對齊。

1.3 CLIP 的零樣本學習能力

CLIP 的優勢在于其零樣本學習能力。預訓練后,它能夠通過構建提示(例如 “一張 [類別] 的照片”)并比較圖像嵌入與可能類別的文本嵌入,執行圖像分類等任務,而無需特定任務的訓練數據。

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

零樣本 CLIP 在應對分布偏移時,比標準 ImageNet 模型具有更強的魯棒性。左圖展示了理想魯棒模型(虛線)在 ImageNet 分布和其他自然圖像分布上的表現一致。零樣本 CLIP 模型將這種 “魯棒性差距” 縮小了高達 75%。圖中顯示了對 logits 轉換值的線性擬合以及基于自助法估計的 95% 置信區間。右圖則可視化了香蕉類別的分布偏移情況,該類別在 7 個自然分布偏移數據集中有 5 個共享。最佳零樣本 CLIP 模型(ViT-L/14@336px)的表現與在 ImageNet 驗證集上表現相同的 ResNet-101 模型進行了對比。(來源:OpenAI)

2. SigLIP:語言-圖像預訓練的 Sigmoid 損失(2023 年)

SigLIP 由 Google Research 于 2023 年推出,它在 CLIP 奠定的基礎上進行了關鍵創新。CLIP 采用基于 softmax 的對比損失函數,而 SigLIP 則引入了成對的 sigmoid 損失函數,簡化了訓練流程,并提高了效率和性能,尤其在大規模數據集上表現突出。

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

2.1 SigLIP 架構

SigLIP 保留了與 CLIP 類似的雙編碼器設置:

  • 圖像編碼器:可以是 Vision Transformer 或其他視覺骨干網絡。
  • 文本編碼器:基于 Transformer 的語言模型。

這種架構對編碼器的具體選擇具有高度靈活性,能夠方便地進行擴展或適應不同領域。

2.2 SigLIP 訓練目標

SigLIP 的關鍵創新在于用基于 sigmoid 的損失函數替換了 CLIP 的對比損失函數。對于包含 N 個圖像 - 文本對的批次:

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

這種成對的公式消除了 CLIP 的 softmax 對比損失所需的全批次歸一化需求。這樣做簡化了計算,并增強了穩定性,特別是在擴展到更大的批次大小時。

SigLIP 的優勢

  • 效率提升:sigmoid 損失函數使每對的損失計算相互獨立,相比 CLIP 的全批次歸一化操作,提供了更好的并行性并減少了內存開銷。
  • 魯棒性增強:SigLIP 在處理噪聲數據或不平衡數據時表現出色,這可能是因為其損失函數對異常值的敏感度較低。
  • 可擴展性提高:簡化的損失函數使得 SigLIP 更容易擴展到更大的數據集,如 Google 內部的數十億圖像 - 文本對語料庫。這使得 SigLIP 能夠充分利用大規模數據進行訓練,從而在各種任務中實現更高的性能。

CLIP 為多模態學習奠定了基礎,而 SigLIP 通過優化損失函數來提升效率和可擴展性,使其更適用于工業規模的應用。

CLIP 與 SigLIP 的關鍵區別

  • 損失函數

CLIP:采用基于 softmax 的對比損失函數,需計算批次中所有對的相似度并進行全局歸一化,導致計算復雜度較高,特別是在大批量數據時內存和計算開銷大。

SigLIP:引入基于 sigmoid 的成對損失函數,將每對圖像 - 文本對獨立視為正例或負例,無需全局歸一化,降低了計算復雜度和內存需求。

  • 訓練效率

CLIP:由于 softmax 的全批次歸一化操作,計算開銷較大,訓練效率在大規模數據集和大批次訓練時受限。

SigLIP:sigmoid 損失函數使每對的損失計算相互獨立,便于并行計算,提升了訓練效率,適合大規模數據集和大批次訓練。

  • 擴展性

CLIP:在處理非常大的數據集時,由于計算復雜度問題,擴展性受限。

SigLIP:簡化的損失函數設計使其更容易擴展到更大的數據集,適用于工業規模應用場景。

  • 魯棒性

CLIP:在處理噪聲數據或不平衡數據時,可能會受到一定影響。

SigLIP:對噪聲和不平衡數據的魯棒性更強,能夠更有效地處理這類數據。

總之,SigLIP 在繼承 CLIP 的多模態學習框架基礎上,通過改進損失函數,提高了訓練效率和模型的擴展性及魯棒性,更適合大規模工業應用場景。

3. 多模態大語言模型(MLLMs)

CLIP 和 SigLIP 的出現極大地推動了多模態大語言模型(MLLMs)的發展,這些模型將視覺和語言能力整合到一個統一的框架中。通過利用 CLIP 和 SigLIP 預訓練的圖像 - 文本對齊能力,這些模型能夠執行視覺問答(VQA)、圖像描述生成和多模態推理等任務。下面我們將探討 CLIP 和 SigLIP 在 LLaVA 等知名 MLLMs 中的應用。

3.1 LLaVA:語言與視覺助手(2023 年)

LLaVA(Large Language and Vision Assistant)由加州大學伯克利分校和微軟的研究人員開發,是建立在 CLIP 基礎之上的一類重要 MLLM。LLaVA 將 CLIP 的視覺編碼器(通常是 Vision Transformer)與大型語言模型(如 LLaMA 或 Vicuna)相結合,以處理圖像和文本輸入。

  • 架構設計:LLaVA 的核心在于將 CLIP 的視覺編碼器與強大的語言模型相融合。視覺編碼器負責將圖像轉化為語義嵌入,語言模型則利用這些嵌入生成連貫的文本輸出。這種結合使得 LLaVA 能夠理解和回應圖像和文本的復合輸入。

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

LLaVA 的架構如下:

首先,圖像處理部分使用 CLIP 預訓練的圖像編碼器從輸入圖像中提取視覺嵌入。

接著,投影層(線性或基于 MLP 的投影層)將 CLIP 視覺嵌入映射到語言模型的輸入空間,確保不同模態之間的兼容性。

文本整合階段,將視覺嵌入與文本標記嵌入進行拼接或交錯排列,使語言模型能夠同時對兩種輸入進行推理。

最后,LLaVA 在視覺指令跟隨數據集(如視覺問答或圖像描述任務)上進行微調,以適應下游應用。

通過利用 CLIP 的零樣本能力,LLaVA 能夠在很少的微調情況下泛化到未見過的任務,使其在交互式聊天機器人等實際應用中高度靈活,能夠解析圖像。

3.2 其他知名的多模態大語言模型(MLLMs)

CLIP 和 SigLIP 已被整合到其他多個知名的 MLLMs 中,增強了這些模型的多模態能力:

BLIP-2(Bootstrap Language-Image Pretraining)

  • 開發者:由 Salesforce Research 開發。
  • 架構:BLIP-2 使用 CLIP 的視覺編碼器提取圖像特征,然后將這些特征輸入到輕量級查詢變換器(Q-Former)中,再由語言模型(如 OPT 或 Flan-T5)進行處理。
  • 優勢:這種模塊化方法減少了計算開銷,同時在視覺問答(VQA)和圖像-文本檢索等任務上保持了強大的性能。

Flamingo

  • 開發者:由 DeepMind 推出。
  • 架構:Flamingo 使用 CLIP 的視覺編碼器處理圖像序列,并將其與預訓練的語言模型(如 Chinchilla)結合。Flamingo 的架構中包含一個 “Perceiver Resampler”,用于壓縮視覺嵌入,從而能夠高效地處理長視覺上下文和文本。
  • 優勢:這種設計使得 Flamingo 能夠處理多個圖像并進行長序列的視覺推理,適用于需要復雜視覺理解的任務。

Google 的多模態模型

  • 應用:Google 在其多模態模型中也集成了 SigLIP,例如 Gemini 模型家族。
  • 優勢:SigLIP 的成對 sigmoid 損失函數提高了模型在大規模數據集上的擴展性和效率,使其在圖像支持的對話和內容理解等任務中表現出色。

清楚了!一文看懂多模態大語言模型CLIP架構和 SigLIP架構-AI.x社區

3.3 CLIP 和 SigLIP 在 MLLMs 中的優勢

  • 預訓練對齊:CLIP 和 SigLIP 提供了預對齊的圖像 - 文本表示,為下游任務提供了強大的起點,減少了對大量監督數據的需求。
  • 靈活性:它們的編碼器設計可以無縫集成到各種語言模型中,便于研究人員嘗試不同架構。
  • 擴展性:SigLIP 的高效損失函數使其在大規模多模態數據集上訓練 MLLMs 時具有顯著優勢,而 CLIP 的零樣本學習能力則增強了模型的適應性。

3.4 挑戰

盡管 CLIP 和 SigLIP 具有諸多優勢,但將它們集成到 MLLMs 中也面臨一些挑戰:

  • CLIP 的固定嵌入空間:可能限制細粒度推理,需要額外的投影層或微調。
  • SigLIP 的可擴展性權衡:在小規模設置中,SigLIP 對可擴展性的關注可能會犧牲 CLIP 的部分零樣本泛化能力。
  • 訓練數據偏見:兩者都繼承了其從網絡爬取的訓練數據中的偏見,可能導致 MLLM 輸出結果存在偏見,需要仔細評估和制定去偏策略。

本文轉載自??智駐未來??,作者:小智

已于2025-5-23 10:40:56修改
收藏
回復
舉報
回復
相關推薦
黄网在线免费看| 成人sese在线| 国产精品久久久久久超碰| 日韩一区二区三区免费视频| 91精品国产综合久久福利软件 | 欧美日韩在线免费播放| 免费在线观看不卡| 久久99热只有频精品91密拍| 一区二区亚洲欧洲国产日韩| 菠萝菠萝蜜在线视频免费观看| 欧美性猛交xxxx免费看久久久| bdsm精品捆绑chinese| 一区二区三区蜜桃| 91精品久久久久久9s密挑| 亚洲大片一区二区三区| 真不卡电影网| 色综合天天综合给合国产| 91福利在线视频| 日韩美女在线视频| 国产亚洲成av人片在线观看| 国产午夜精品理论片a级探花| 国产日韩电影| 少妇高潮久久77777| 国产一区二区久久久久| 45www国产精品网站| 日韩欧美在线中字| 成人av男人的天堂| 久久久一二三| 国产专区在线视频| 国产欧美日韩三级| 一二三四社区在线视频6| 欧美日韩午夜精品| 韩国美女久久| 91精品国产乱码久久久久久蜜臀| 国产不卡一区| 久久久久久精| 成人综合婷婷国产精品久久| 天堂av在线网站| 精品色蜜蜜精品视频在线观看| 色老头视频在线观看| 日韩精品高清在线观看| 精品久久亚洲| 91久久精品一区二区别| 久久成人免费日本黄色| 一级在线免费视频| 亚洲丝袜啪啪| 欧美日韩免费视频| 女人让男人操自己视频在线观看| 中文字幕在线亚洲| 日韩一区三区| 亚洲自拍偷拍二区| 中文字幕一区日韩精品欧美| 成人福利在线| 一本色道久久综合狠狠躁篇的优点 | 久久中文字幕视频| 欧美电影三区| 亚洲免费视频播放| 依依成人精品视频| 日本动漫同人动漫在线观看| 欧美国产日韩在线| 国产色综合网| 亚洲成人天堂网| 欧美另类高清zo欧美| 成人a在线观看高清电影| 国产中文字幕日韩| eeuss影院一区二区三区| 男人天堂资源在线| 九色精品免费永久在线| 奶水喷射视频一区| xxx国产在线观看| 精品乱码亚洲一区二区不卡| japanese色系久久精品| 天天综合狠狠精品| 婷婷激情综合网| 日本.亚洲电影| 91视频99| 国产欧美日韩综合| 密臀av在线播放| 91久久精品久久国产性色也91| 处破女av一区二区| 久久99精品久久| 久久理论片午夜琪琪电影网| 三级影片在线观看欧美日韩一区二区| 99热播在线观看| 亚洲欧美激情一区| 亚洲精品女人| 女同互忝互慰dv毛片观看| 亚洲最新av在线| 在线播放日韩| 宅男深夜免费观看视频| 久久久精品2019中文字幕神马| 一本综合精品| 伊人久久青青草| 国内自拍欧美激情| 丁香激情综合五月| 国产精品国产亚洲精品看不卡15| 亚洲国产欧美在线观看| 亚洲精品一区二区三区樱花 | 日韩大片免费观看| 国产98在线|日韩| 亚洲综合精品自拍| 97久久亚洲| 日韩欧美猛交xxxxx无码| 91精品国产综合久久久久久 | 在线观看视频亚洲| 日韩精品电影一区亚洲| 国产福利小视频在线观看| 91国在线精品国内播放| 91麻豆国产自产在线观看| 超碰超碰人人人人精品| 台湾成人av| 欧美精品一卡两卡| 国内精品久久久久久久97牛牛 | 国产亚洲第一伦理第一区| 99re在线视频免费观看| 在线免费看av不卡| 国产在线乱码一区二区三区| 欧美高清另类hdvideosexjaⅴ| 国产日韩欧美二区| 欧美日韩精品一区二区三区四区| 午夜精彩国产免费不卡不顿大片| 午夜影院在线免费观看| 91亚洲va在线va天堂va国 | 高清国语自产在线观看| 久久久久免费视频| 国产午夜精品理论片a级大结局| 欧美风情在线视频| 成人午夜免费在线| 久热在线中文字幕色999舞| 99久久免费国产| 欧美第一在线视频| 欧美三级午夜理伦三级富婆| 51午夜精品视频| 亚洲狠狠丁香婷婷综合久久久| 蜜桃成人av| 一级二级在线观看| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 国产精品第一第二| 一区二区三区精品视频在线| 亚洲香蕉视频| 日本女优北野望在线电影| 国产成人精品优优av| 午夜国产精品一区| 欧美日韩91| 亚洲丝袜一区| 日本精品免费视频| 久久亚洲精品一区| 国产精品国产精品国产专区不蜜| 少妇精品久久久| 无夜福利视频观看| 成人免费福利视频| 欧美高清dvd| 国产精品综合二区| 日韩精品一区二区三区中文 | 羞羞电影在线观看www| 亚洲欧洲日本国产| 精品国偷自产在线| 亚洲美女视频一区| 亚洲国产婷婷| 福利小视频在线| 欧美日韩亚洲一| 日韩美女中文字幕| 制服丝袜激情欧洲亚洲| av不卡一区二区三区| 久久日文中文字幕乱码| 欧美一卡二卡| 日本在线视频www| 国产日韩欧美日韩大片| 亚洲二区在线播放视频| 中文字幕不卡在线观看| 这里只有精品在线| 亚洲一区二区三区四区| 91免费版在线观看| 中文字幕日韩精品一区二区| 欧美精品久久久久久久免费观看 | 福利视频一二区| 欧美亚洲成人xxx| 欧美日韩1234| 久久久久久久网| 国产精品成人一区二区网站软件| 456亚洲精品成人影院| 欧美性猛交p30| xxxxxx在线观看| 国产精品普通话| 亚洲第一天堂无码专区| 日韩毛片高清在线播放| 久久久青草婷婷精品综合日韩| 亚洲高清999| 成人区精品一区二区不卡| 五月天婷婷激情视频| 成人av资源网| 欧美多人乱p欧美4p久久| 欧美日韩精品电影| 久久综合五月天婷婷伊人| 亚洲国产婷婷| 欧美顶级毛片在线播放| 啊啊啊久久久| 香蕉视频在线免费| av动漫在线看| 欧美欧美一区二区|