RangePerception:Range View3D檢測新思路!
本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
原標(biāo)題:RangePerception: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection
論文鏈接:https://openreview.net/pdf?id=9kFQEJSyCM
作者單位:上海人工智能實(shí)驗(yàn)室 復(fù)旦大學(xué)

論文思路:
基于 LiDAR 的 3D 檢測方法目前使用鳥瞰圖 (BEV) 或 range view (RV) 作為主要基礎(chǔ)。前者依賴體素化和 3D 卷積,導(dǎo)致訓(xùn)練和推理過程效率低下。相反,基于 RV 的方法由于其緊湊性和與 2D 卷積的兼容性而表現(xiàn)出更高的效率,但其性能仍然落后于基于 BEV 的方法。為了消除這種性能差距,同時(shí)保持基于 RV 的方法的效率,本研究提出了一種高效且準(zhǔn)確的基于 RV 的 3D 目標(biāo)檢測框架,稱為 RangePerception。通過細(xì)致的分析,本研究確定了阻礙現(xiàn)有基于 RV 的方法性能的兩個(gè)關(guān)鍵挑戰(zhàn):1)輸出中使用的 3D 世界坐標(biāo)與輸入中使用的 2D range image 坐標(biāo)之間存在自然域差距(natural domain gap),導(dǎo)致從 range images 中提取信息變得困難 ;2)原始 range image 存在視覺損壞問題(vision corruption issue),影響位于 range image 邊緣的目標(biāo)的檢測精度。為了解決上述關(guān)鍵挑戰(zhàn),本文提出了兩種名為 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新穎算法,它們促進(jìn)了 range image 表示和世界坐標(biāo) 3D 檢測結(jié)果的信息流。在 RAK 和 VRM 的幫助下,在 Waymo Open Dataset 上,與之前最先進(jìn)的基于 RV 的方法 RangeDet 相比,本文的 RangePerception 的平均 L1/L2 AP 提高了 3.25/4.18。RangePerception 首次作為基于 RV 的 3D 檢測方法,與著名的基于 BEV 的方法 CenterPoint 相比,其平均 AP 略高,并且 RangePerception 的推理速度是 CenterPoint 的 1.3 倍。
網(wǎng)絡(luò)設(shè)計(jì):
本文展示了一種高效且準(zhǔn)確的基于 RV 的 3D 檢測框架,稱為 RangePerception。為了克服上述關(guān)鍵挑戰(zhàn),提出了兩種名為 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新穎算法,并將其集成到 RangePerception 框架中,兩者都促進(jìn)了 range image 表示和世界坐標(biāo) 3D 檢測結(jié)果的信息流。在 RAK 和 VRM 的幫助下,本文的 RangePerception 在 WOD 上為 vehicle & pedestrian & cyclist 提供了 73.62、80.24 和 70.33 L1 3D AP,作為 range-view-based 3D 檢測方法,實(shí)現(xiàn)了最先進(jìn)的性能。本文的貢獻(xiàn)如下。
RangePerception Framework. 本文介紹了一種新穎的高性能 3D 檢測框架,名為 RangePerception。RangePerception 是第一個(gè)基于 RV 的 3D 檢測器,在 WOD 上實(shí)現(xiàn)了 74.73/69.17 平均 L1/L2 AP,優(yōu)于之前最先進(jìn)的基于 RV 的檢測器 RangeDet,后者的平均 L1/L2 AP 為 71.48/64.99,呈現(xiàn) 3.25/4.18 的改進(jìn)。與廣泛使用的基于 BEV 的方法 CenterPoint [6] 相比,RangePerception 還表現(xiàn)出了稍微優(yōu)越的性能,后者的平均 L1/L2 AP 為 74.25/68.04。值得注意的是,RangePerception 的推理速度是 CenterPoint 的 1.3 倍,這證明其更適合自動(dòng)駕駛車輛上的實(shí)時(shí)部署。
Range Aware Kernel. 作為 RangePerception 特征提取器的一部分, Range Aware Kernel (RAK) 是一種專為基于 RV 的網(wǎng)絡(luò)量身定制的開創(chuàng)性算法。RAK 將 range image 空間分解為多個(gè)子空間,并通過從每個(gè)子空間中獨(dú)立提取特征來克服空間錯(cuò)位問題(Spatial Misalignment issue)。實(shí)驗(yàn)結(jié)果表明,RAK 將平均 L1/L2 AP 提高了 5.75/5.99,而計(jì)算成本可以忽略不計(jì)。
Vision Restoration Module. 為了解決視覺損壞問題(Vision Corruption issue),本研究提出了 Vision Restoration Module(VRM)。VRM 通過恢復(fù)先前損壞的區(qū)域來擴(kuò)展 backbone 網(wǎng)絡(luò)的感受野。VRM 對于車輛檢測特別有幫助,如實(shí)驗(yàn)部分所示。

圖 2:RangePerception 框架采用 range image I 作為輸入并生成密集預(yù)測。為了改進(jìn)表示學(xué)習(xí),該框架在 Range Backbone 之前依次集成了 VRM 和 RAK 模塊。隨后,使用專門設(shè)計(jì)的 Redundancy Pruner 來消除深層特征中的冗余,從而減輕后續(xù) Region Proposal Network 和后處理層中的計(jì)算成本。


圖 1:(a-d) 頂部 LiDAR 信號的示例幀,分別以 RV 和 BEV 表示。(e) 空間錯(cuò)位現(xiàn)象(Spatial Misalignment phenomena)。(f) 視覺損壞現(xiàn)象(Vision Corruption phenomena)。

圖 3:Range Aware Kernel 將 range image 空間分解為多個(gè)子空間,并通過從每個(gè)子空間提取獨(dú)立的特征來克服空間錯(cuò)位問題(Spatial Misalignment issue)。


圖 5:Vision Restoration Module。通過預(yù)先定義恢復(fù)角 δ,VRM 構(gòu)建了一個(gè)方位角 θ ∈ [?δ, 2π + δ] 的擴(kuò)展球面空間。因此, range image I 兩側(cè)的視覺損壞問題都得到了解決,顯著簡化了從 I 邊緣提取特征的過程。
實(shí)驗(yàn)結(jié)果:




總結(jié):
本文介紹了 RangePerception,這是一種基于 RV 的 3D 檢測框架,可有效解決空間錯(cuò)位(Spatial Misalignment)和視覺損壞(Vision Corruption)的挑戰(zhàn)。通過引入 RAK 和 VRM,RangePerception 在 WOD 上實(shí)現(xiàn)了卓越的檢測性能,展示了其高效、準(zhǔn)確的實(shí)際部署潛力。
引用:
@inproceedings{
bai2023rangeperception,
title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection},
author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
url={https://openreview.net/forum?id=9kFQEJSyCM}
}
原文鏈接:https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w




























