首個(gè)目標(biāo)檢測(cè)擴(kuò)散模型，比Faster R-CNN、DETR好，從隨機(jī)框中直接檢測(cè)

作者：機(jī)器之心 2022-11-21 15:18:05

擴(kuò)散模型不但在生成任務(wù)上非常成功，這次在目標(biāo)檢測(cè)任務(wù)上，更是超越了成熟的目標(biāo)檢測(cè)器。

擴(kuò)散模型（ Diffusion Model ）作為深度生成模型中的新 SOTA，已然在圖像生成任務(wù)中超越了原 SOTA：例如 GAN，并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn)，如計(jì)算機(jī)視覺，NLP、分子圖建模、時(shí)間序列建模等。

近日，來(lái)自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet，將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè)。據(jù)了解，還沒有研究可以成功地將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè)，可以說(shuō)這是第一個(gè)采用擴(kuò)散模型進(jìn)行目標(biāo)檢測(cè)的工作。

DiffusionDet 的性能如何呢？在 MS-COCO 數(shù)據(jù)集上進(jìn)行評(píng)估，使用 ResNet-50 作為骨干，在單一采樣 step 下，DiffusionDet 實(shí)現(xiàn) 45.5 AP，顯著優(yōu)于 Faster R-CNN (40.2 AP)， DETR (42.0 AP)，并與 Sparse R-CNN (45.0 AP)相當(dāng)。通過(guò)增加采樣 step 的數(shù)量，進(jìn)一步將 DiffusionDet 性能提高到 46.2 AP。此外，在 LVIS 數(shù)據(jù)集上，DiffusionDet 也表現(xiàn)良好，使用 swing - base 作為骨干實(shí)現(xiàn)了 42.1 AP。

論文地址：https://arxiv.org/pdf/2211.09788.pdf
項(xiàng)目地址 https://github.com/ShoufaChen/DiffusionDet

該研究發(fā)現(xiàn)在傳統(tǒng)的目標(biāo)檢測(cè)里，存在一個(gè)缺陷，即它們依賴于一組固定的可學(xué)習(xí)查詢。然后研究者就在思考：是否存在一種簡(jiǎn)單的方法甚至不需要可學(xué)習(xí)查詢就能進(jìn)行目標(biāo)檢測(cè)？

為了回答這一問(wèn)題，本文提出了 DiffusionDet，該框架可以直接從一組隨機(jī)框中檢測(cè)目標(biāo)，它將目標(biāo)檢測(cè)制定為從噪聲框到目標(biāo)框的去噪擴(kuò)散過(guò)程。這種從 noise-to-box 的方法不需要啟發(fā)式的目標(biāo)先驗(yàn)，也不需要可學(xué)習(xí)查詢，這進(jìn)一步簡(jiǎn)化了目標(biāo)候選，并推動(dòng)了檢測(cè) pipeline 的發(fā)展。

如下圖 1 所示，該研究認(rèn)為 noise-to-box 范式類似于去噪擴(kuò)散模型中的 noise-to-image 過(guò)程，后者是一類基于似然的模型，通過(guò)學(xué)習(xí)到的去噪模型逐步去除圖像中的噪聲來(lái)生成圖像。

DiffusionDet 通過(guò)擴(kuò)散模型解決目標(biāo)檢測(cè)任務(wù)，即將檢測(cè)看作圖像中 bounding box 位置 (中心坐標(biāo)) 和大小 (寬度和高度) 空間上的生成任務(wù)。在訓(xùn)練階段，將方差表（schedule）控制的高斯噪聲添加到 ground truth box，得到 noisy box。然后使用這些 noisy box 從主干編碼器（如 ResNet， Swin Transformer）的輸出特征圖中裁剪感興趣區(qū)域（RoI）。最后，將這些 RoI 特征發(fā)送到檢測(cè)解碼器，該解碼器被訓(xùn)練用來(lái)預(yù)測(cè)沒有噪聲的 ground truth box。在推理階段，DiffusionDet 通過(guò)反轉(zhuǎn)學(xué)習(xí)到的擴(kuò)散過(guò)程生成 bounding box，它將噪聲先驗(yàn)分布調(diào)整到 bounding box 上的學(xué)習(xí)分布。

方法概述

由于擴(kuò)散模型迭代地生成數(shù)據(jù)樣本，因此在推理階段需要多次運(yùn)行模型 f_θ。但是，在每一個(gè)迭代步驟中，直接在原始圖像上應(yīng)用 f_θ在計(jì)算上很困難。因此，研究者提出將整個(gè)模型分為兩部分，即圖像編碼器和檢測(cè)解碼器，前者只運(yùn)行一次以從原始輸入圖像 x 中提取深度特征表示，后者以該深度特征為條件，從噪聲框 z_t 中逐步細(xì)化框預(yù)測(cè)。

圖像編碼器將原始圖像作為輸入，并為檢測(cè)解碼器提取其高級(jí)特征。研究者使用 ResNet 等卷積神經(jīng)網(wǎng)絡(luò)和 Swin 等基于 Transformer 的模型來(lái)實(shí)現(xiàn) DiffusionDet。與此同時(shí)，特征金字塔網(wǎng)絡(luò)用于為 ResNet 和 Swin 主干網(wǎng)絡(luò)生成多尺度特征圖。

檢測(cè)解碼器借鑒了 Sparse R-CNN，將一組 proposal 框作為輸入，從圖像編碼器生成的特征圖中裁剪 RoI 特征，并將它們發(fā)送到檢測(cè)頭以獲得框回歸和分類結(jié)果。此外，該檢測(cè)解碼器由 6 個(gè)級(jí)聯(lián)階段組成。

訓(xùn)練

在訓(xùn)練過(guò)程中，研究者首先構(gòu)建了從真值框到噪聲框的擴(kuò)散過(guò)程，然后訓(xùn)練模型來(lái)反轉(zhuǎn)這個(gè)過(guò)程。如下算法 1 提供了 DiffusionDet 訓(xùn)練過(guò)程的偽代碼。

真值框填充。對(duì)于現(xiàn)代目標(biāo)檢測(cè)基準(zhǔn)，感興趣實(shí)例的數(shù)量通常因圖像而異。因此，研究者首先將一些額外的框填充到原始真值框，這樣所有的框被總計(jì)為一個(gè)固定的數(shù)字 N_train。他們探索了幾種填充策略，例如重復(fù)現(xiàn)有真值框、連接隨機(jī)框或圖像大小的框。

框損壞。研究者將高斯噪聲添加到填充的真值框。噪聲尺度由如下公式（1）中的 α_t 控制，它在不同的時(shí)間步 t 中采用單調(diào)遞減的余弦調(diào)度。

訓(xùn)練損失。檢測(cè)解碼器將 N_train 損壞框作為輸入，預(yù)測(cè) N_train 對(duì)類別分類和框坐標(biāo)的預(yù)測(cè)。同時(shí)在 N_train 預(yù)測(cè)集上應(yīng)用集預(yù)測(cè)損失（set prediction loss）。

推理

DiffusionDet 的推理過(guò)程是從噪聲到目標(biāo)框的去噪采樣過(guò)程。從在高斯分布中采樣的框開始，該模型逐步細(xì)化其預(yù)測(cè)，具體如下算法 2 所示。

采樣步驟。在每個(gè)采樣步驟中，將上一個(gè)采樣步驟中的隨機(jī)框或估計(jì)框發(fā)送到檢測(cè)解碼器，以預(yù)測(cè)類別分類和框坐標(biāo)。在獲得當(dāng)前步驟的框后，采用 DDIM 來(lái)估計(jì)下一步驟的框。

框更新。為了使推理更好地與訓(xùn)練保持一致，研究者提出了框更新策略，通過(guò)用隨機(jī)框替換非預(yù)期的框以使它們恢復(fù)。具體來(lái)說(shuō)，他們首先過(guò)濾掉分?jǐn)?shù)低于特定閾值的非預(yù)期的框，然后將剩余的框與從高斯分布中采樣的新隨機(jī)框連接起來(lái)。

一次解決（Once-for-all）。得益于隨機(jī)框設(shè)計(jì)，研究者可以使用任意數(shù)量的隨機(jī)框和采樣步驟來(lái)評(píng)估 DiffusionDet。作為比較，以往的方法在訓(xùn)練和評(píng)估期間依賴于相同數(shù)量的處理框，并且檢測(cè)解碼器在前向傳遞中僅使用一次。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分，研究者首先展示了 DiffusionDet 的 Once-for-all 屬性，然后將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上成熟的檢測(cè)器進(jìn)行比較。

DiffusionDet 的主要特性在于對(duì)所有推理實(shí)例進(jìn)行一次訓(xùn)練。一旦模型經(jīng)過(guò)訓(xùn)練，它就可以用于更改推理中框的數(shù)量和樣本步驟數(shù)，如下圖 4 所示。DiffusionDet 可以通過(guò)使用更多框或 / 和更多細(xì)化步驟來(lái)實(shí)現(xiàn)更高的準(zhǔn)確度，但代價(jià)是延遲率更高。因此，研究者將單個(gè) DiffusionDet 部署到多個(gè)場(chǎng)景中，并在不重新訓(xùn)練網(wǎng)絡(luò)的情況下獲得所需的速度 - 準(zhǔn)確率權(quán)衡。

研究者將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上的檢測(cè)器進(jìn)行了比較，具體如下表 1 所示。他們首先將 DiffusionDet 的目標(biāo)檢測(cè)性能與以往在 MS-COCO 上的檢測(cè)器進(jìn)行了比較。結(jié)果顯示，沒有細(xì)化步驟的 DiffusionDet 使用 ResNet-50 主干網(wǎng)絡(luò)實(shí)現(xiàn)了 45.5 AP，以較大的優(yōu)勢(shì)超越了以往成熟的方法，如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且當(dāng)主干網(wǎng)絡(luò)的尺寸擴(kuò)大時(shí)，DiffusionDet 顯示出穩(wěn)定的提升。