国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

浙大李璽團隊:指代表達理解新方法,ScanFormer粗到細迭代消除視覺冗余

人工智能 新聞
基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開始,逐步過濾掉指代表達無關 / 背景區域來降低計算浪費,使模型更多地關注前景 / 任務相關區域。

該論文作者均來自于浙江大學李璽教授團隊,論文第一作者為博士生蘇偉同學,通訊作者為李璽教授(IET Fellow,國家杰青)。李璽教授團隊近年來在國際權威期刊(如 TPAMI、IJCV 等)和國際頂級學術會議(ICCV、CVPR、ECCV 等)上發表 180 余篇 CV/AIGC 相關的研究工作,和國內外知名高校、科研機構廣泛開展合作。

作為基礎的視覺語言任務,指代表達理解(referring expression comprehension, REC)根據自然語言描述來定位圖中被指代的目標。REC 模型通常由三部分組成:視覺編碼器、文本編碼器和跨模態交互,分別用于提取視覺特征、文本特征和跨模態特征特征交互與增強。

目前的研究大多集中在設計高效的跨模態交互模塊以提升任務精度,缺少對視覺編碼器探索。常見做法是利用在分類、檢測任務上預訓練的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等。這些模型以滑動窗口或劃分 patch 的方式遍歷圖像所有的空間位置來提取特征,其計算復雜度會隨圖像分辨率快速增長,在基于 Transformer 的模型中更加明顯。

由于圖像的空間冗余特性,圖像中存在大量低信息量的背景區域以及與指代表達無關的區域,以相同的方式在這些區域提取特征會增加計算量但對有效特征提取沒有任何幫助。更加高效的方式是提前預測圖像區域的文本相關性和內容的豐富程度,對文本相關的前景區域充分提取特征,對背景區域粗略提取特征。對于區域預測,一個較為直觀的方式是通過圖像金字塔來實現,在金字塔頂層的粗粒度圖像中提前辨識背景區域,之后逐步加入高分辨率的細粒度前景區域。

基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開始,逐步過濾掉指代表達無關 / 背景區域來降低計算浪費,使模型更多地關注前景 / 任務相關區域。

圖片

  • 論文標題:ScanFormer: Referring Expression Comprehension by Iteratively Scanning
  • 論文鏈接:https://arxiv.org/pdf/2406.18048

方法介紹

一、Coarse-to-fine 迭代感知框架

為簡化結構,我們采用統一文本和視覺模態的 ViLT [1] 模型,并將其沿深度維度分為 Encoder1 和 Encoder2 兩部分以用于不同的任務。

首先,提取文本特征并將其存入 KV Cache;然后構造圖像金字塔并從金字塔頂層依次往下迭代,在每次迭代中,輸入當前尺度被選擇的 patch,Encoder1 用于預測每個 patch 對應的下一個尺度的細粒度 patch 的選擇情況,特別地,頂層圖像的 patch 全部被選上,以保證模型能獲得粗粒度的全圖信息。Encoder2 進一步提取特征并基于當前尺度的 [cls] token 來預測該尺度的 bounding box。

與此同時,Encoder1 和 Encoder2 的中間特征會被存入 KV Cache 以方便被后續的尺度利用。隨著尺度的增加,細粒度特征被引入,位置預測會更加準確,同時大部分無關的 patch 被丟棄以節省大量計算。

此外,每個尺度內部的 patch 具有雙向注意力,同時會關注前序尺度所有的 patch 和文本特征。這種尺度間的因果注意力可以進一步降低計算需求。

圖片

二、動態 patch 選擇

每個 patch 的選擇情況由前一尺度生成的選擇因子決定,對于應用的位置有兩種方案,其一是用于 Encoder 每層 MHSA 的所有 head 中,然而,對于 N 層 H 頭的 Encoder,很難獲得有效的的梯度信息來更新,因此學到的選擇因子不太理想;其二是直接用于 Encoder 的輸入,即 patch embedding 上,由于只用在這一個位置,因此更容易學習,本文最終也采用了此方案。

另外,需要注意的是,即使輸入 patch embedding 被置 0,由于 MHSA 和 FFN 的存在,該 patch 在后續層的特征仍然會變為非 0 并影響其余 patch 的特征。幸運的是,當 token 序列中存在許多相同 token 時,可以簡化 MHSA 的計算,實現實際的推理加速。此外,為了增強模型的靈活性,本文并沒有直接將 patch embedding 置 0,而是將其替換為一個可學習的常量 token。

因此,patch 的選擇問題被轉換成 patch 的替換問題。patch 選擇的過程可以分解為常量 token 替換和 token 合并兩步。未被選擇的 patch 會被替換為同一個常量 token。由于這些未被選擇的 token 是相同的,根據 scaled dot product attention 的計算方式,這些 token 可以被合并為一個 token 并乘上總數,等價于將加到維度上,因此點積注意力的計算方式不變,常見的加速方法依舊可用。

圖片

實驗結果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四個數據集上取得了和 state-of-the-art 相近的性能。通過在大規模數據集上預訓練并在具體數據集上微調,模型的性能可以進一步大幅提升,并達到和預訓練模型如 MDETR [2] 和 OFA [3] 等相近的結果。

圖片

圖片

在推理速度上,提出的方法達到了實時的推理速度,同時能保證較高的任務精度。

圖片

此外,實驗部分也對模型的 patch 選擇情況以及每個尺度(scale1 和 scale2)定位精度的分布做了統計。

如左圖所示,隨著尺度的增加,細粒度的圖像特征被加入,模型精度逐步提升。因此可以嘗試加入早退機制,在定位精度滿足要求時及時退出,避免進一步在高分辨率圖像上計算,實現根據樣本自適應選擇合適的分辨率的效果。本文也進行了一些初步的嘗試,包括加入 IoU、GIoU 和不確定性等預測分支,回歸 early exit 的指標,但發現效果不太理想,如何設計合適且準確的 early exit 指標有待繼續探索。

右圖展示了不同尺度的 patch 選擇情況,在所有的尺度上,被選擇的 patch 占均比較小,大部分的 patch 都可以被剔除,因此可以有效地節省計算資源。對于每個樣本(圖像 + 指代表達),實際選擇的 patch 數量相對較少,大概占總數的 65%。

圖片

最后,實驗部分展示了一些可視化結果,隨著尺度的增加(紅→綠→藍),模型的定位精度逐步提高。另外,根據由被選擇的 patch 重建的圖像,可以看出模型對于背景區域只關注了粗尺度的信息,對于相關的前景區域,模型能夠關注細粒度的細節信息。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2022-07-25 15:34:01

量化仿真數據誤差內存占用

2022-12-08 13:00:10

AI性別偏見

2022-11-28 07:32:46

迭代器remove數據庫

2024-09-03 14:10:00

模型測試

2015-08-21 09:14:40

大數據

2010-04-01 09:30:57

2025-11-14 15:44:59

小紅書視頻時長EGMN

2019-07-12 13:50:36

物聯網大數據安全

2022-07-07 10:47:16

IngressKubernetes

2018-10-07 07:00:59

2024-10-23 19:47:54

2009-07-31 08:56:59

ASP.NET頁面刷新

2023-07-06 15:29:52

數據中心能源回收

2024-01-23 17:33:36

2011-03-14 10:10:01

2011-12-01 14:15:19

信息優化惠普

2010-06-18 09:48:22

2025-06-06 09:15:00

2023-07-27 13:12:55

自動駕駛RGB機器
點贊
收藏

51CTO技術棧公眾號

91午夜在线播放| 天堂av在线电影| 亚洲精品免费视频| 成人影视在线播放| 久久精品视频导航| 欧美欧美全黄| 欧美日韩第二页| 91精品国产综合久久精品| 国产在线不卡一区二区三区| 99电影在线观看| 国产日韩欧美在线一区| 午夜在线小视频| 久久久久久高潮国产精品视| 亚洲综合不卡| 91黑丝在线| 亚洲欧美制服第一页| 亚洲精品成人| 国产午夜福利视频在线观看| 欧美绝品在线观看成人午夜影视| 高清日韩欧美| 一区二区不卡在线视频 午夜欧美不卡' | 一区二区高清视频在线观看| 亚洲欧洲自拍| 成人av电影免费| 亚洲天堂免费在线观看视频| 波多野结衣亚洲| 精品欧美国产一区二区三区不卡| 成人欧美一区二区三区黑人麻豆 | 成人免费网视频| 久久综合九色综合久久久精品综合| 天堂а√在线资源在线| 5566成人精品视频免费| 国产精品一品二品| 97影院秋霞午夜在线观看| 91久久久久久久一区二区| 国产精品伦理在线| 欧美黄色成人| 亚洲 欧洲 日韩| 日韩三区在线观看| 亚洲经典在线看| 婷婷婷国产在线视频| 茄子视频成人在线| 中文字幕精品一区| 日韩av黄色| www.av91| 亚洲系列中文字幕| 免费成人在线网站| 中文在线字幕免费观看| 精品日本一区二区三区| 欧洲精品一区二区| 欧美精品aa| 国产色a在线| 亚洲影院污污.| 亚瑟在线精品视频| 草草视频在线观看| 999sesese| 欧美久久一二三四区| 国模大胆一区二区三区| 国产黄在线播放| 国产精品一区二区三区免费| 疯狂欧美牲乱大交777| 欧美在线色图| 色视频在线播放| 牲欧美videos精品| 国产成人亚洲精品狼色在线| 在线激情免费视频| 亚洲影院高清在线| 亚洲第一福利视频在线| 免费精品国产的网站免费观看| xxx国产在线观看| 国内揄拍国内精品| 国产精品激情偷乱一区二区∴| 91成人入口| 猫咪成人官网| 日本高清+成人网在线观看| 1024精品合集| 欧美一区二区麻豆红桃视频| 久久久久久五月天久久久久久久久| 国产精品电影在线观看| 亚洲国产综合91精品麻豆| 久久不见久久见免费视频7| gogo人体高清视频| 国产欧美日韩中文字幕在线| 欧美性生活大片免费观看网址| 黄色成人精品网站| 91超碰在线播放| 久在线观看视频| 欧美一区二区三区四区在线| 精品欧美激情精品一区| 亚洲一区二区三区高清不卡| gogo高清午夜人体在线| 国产高清www| 欧美激情中文字幕在线| 亚洲午夜久久久久| 国产欧美一区二区色老头| 免费高潮视频95在线观看网站| 波多野结衣之无限发射| 国产91对白在线播放| 在线视频欧美精品| 久久国产免费看| 日本在线成人| 色天堂在线视频| 五月天久久狠狠| 色偷偷9999www| 樱花影视一区二区| 日韩亚洲国产欧美| 欧美xxx视频| 999www人成免费视频| 成人三级在线| 日韩风俗一区 二区| 中文字幕久久午夜不卡| 你懂的视频一区二区| 在线免费看h| 九色福利视频| 色姑娘综合av| 求av网址在线观看| 污污视频在线| 91手机视频在线| 米奇精品一区二区三区在线观看| 精品中文字幕一区二区三区av| 欧美日韩国产中文字幕在线| 水蜜桃一区二区| 国模视频一区二区| 欧美午夜精品免费| 国产成人精品一区二| 欧洲杯足球赛直播| 黄色羞羞视频在线观看| 国产成人黄色网址| 免费亚洲精品视频| 性欧美视频videos6一9| 8x8x8国产精品| 欧美国产欧美综合| 日韩高清欧美激情| 日韩在线影视| h片在线观看视频免费免费| 美女视频黄a视频全免费观看| 一区二区视频在线免费| 国产精品美女久久久久久免费| 日韩精品一二三四区| 欧美色播在线播放| 久久网站最新地址| 日本成人中文字幕| 久久综合av| 一区二区三区欧洲区| 黄色网址视频在线观看| 在线观看国产一级片| 牛人盗摄一区二区三区视频| 久久免费在线观看| 亚洲精品一区av在线播放| 富二代精品短视频| 国产精品视频线看| 福利一区福利二区| 日韩主播视频在线| 一区二区国产在线| 亚洲女娇小黑人粗硬| 色8久久久久| 麻豆网站在线| 中文字幕视频在线| 日韩一区二区三区不卡视频| av不卡在线免费观看| 激情视频在线观看一区二区三区| 日本a级片电影一区二区| 久久久99久久精品女同性| 精品国产123| 欧美日韩精品福利| 精品久久中文字幕久久av| 中文字幕在线乱| 亚洲日本成人| 日韩中出av| 高清欧美日韩| 好看的中文字幕在线播放 | 中文子幕无线码一区tr| 韩国成人在线视频| 狂野欧美一区| 在线观看日韩av电影| 国产精品福利在线观看播放| 九一精品国产| 美女网站一区| 国产真实有声精品录音| 动漫av一区| 涩爱av色老久久精品偷偷鲁| 日本免费一区二区三区等视频| 第84页国产精品| 成人免费直播| 欧美va视频| 国产成人福利夜色影视| 国产69精品久久久久按摩| 国产第一精品| 国产视频网站一区二区三区| 天天综合91| 成人免费91| 国产精品任我爽爆在线播放| 国产精品一区二区中文字幕| 国产精品15p| 要久久爱电视剧全集完整观看| 国产成人精品999在线观看| 成人羞羞动漫| 欧美精品一区二区三区久久久竹菊| 亚洲有吗中文字幕| 亚洲少妇诱惑|