国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

速度提升10倍!Depth Anything V2:更魯棒精細的單目深度估計

人工智能 智能汽車
本文介紹了Depth Anything V2。不追求花哨的技術,而是旨在揭示關鍵發現,為構建強大的單目深度估計模型鋪平道路。

圖片

本文介紹了Depth Anything V2。不追求花哨的技術,而是旨在揭示關鍵發現,為構建強大的單目深度估計模型鋪平道路。值得注意的是,與V1相比,本版本通過三項關鍵實踐產生了更精細、更穩健的深度預測:1) 將所有帶標簽的真實圖像替換為合成圖像;2) 擴大教師模型的容量;3) 通過大規模偽標簽真實圖像的橋梁來教授學生模型。與基于Stable Diffusion的最新模型相比,我們的模型在效率(速度快10倍以上)和準確性上都顯著提高。我們提供了不同規模(參數范圍從25M到1.3B)的模型,以支持廣泛的場景。得益于它們強大的泛化能力,我們使用度量深度標簽對其進行微調,以獲得我們的度量深度模型。除了我們的模型外,考慮到當前測試集的有限多樣性和頻繁噪聲,我們還構建了一個具有精確注釋和多樣化場景的多功能評估基準,以促進未來的研究。

圖片圖片

領域背景介紹

單目深度估計(MDE)正受到越來越多的關注,這得益于它在廣泛的下游任務中的基礎性作用。精確的深度信息不僅在經典應用中如3D重建、導航和自動駕駛中受到青睞,在現代場景中如AI生成的內容,包括圖像、視頻和3D場景中也備受關注。因此,最近出現了許多MDE模型,它們都能處理開放世界的圖像。

從模型架構的角度來看,這些工作可以分為兩組。一組基于判別模型,例如BEiT和DINOv2,而另一組則基于生成模型,例如Stable Diffusion(SD)。在圖2中,我們分別比較了兩類中的兩個代表性工作:作為判別模型的Depth Anything和作為生成模型的Marigold??梢院苋菀椎赜^察到,Marigold在建模細節方面更勝一籌,而Depth Anything對于復雜場景產生了更穩健的預測。此外,如表1所示,Depth Anything比Marigold更高效且輕量級,并且有多種規模可供選擇。然而,與此同時,Depth Anything對透明物體和反射的敏感度較高,這卻是Marigold的優勢所在。

在這項工作中,我們考慮到所有這些因素,旨在構建一個更加強大的單目深度估計基礎模型,該模型能夠實現表1中列出的所有優勢:

? 為復雜場景產生穩健的預測,包括但不限于復雜的布局、透明物體(如玻璃)、反射表面(如鏡子、屏幕)等。? 在預測的深度圖中包含精細的細節(與Marigold的細節相當),包括但不限于薄物體(如椅子腿)、小孔等。? 提供不同的模型規模和推理效率,以支持廣泛的應用。? 具有足夠的泛化能力,可以轉移到下游任務中(即進行微調)。

由于單目深度估計(MDE)本質上是一個判別任務,我們從Depth Anything V1出發,旨在保持其優勢并糾正其弱點。有趣的是,我們將展示,要實現這樣一個具有挑戰性的目標,并不需要開發復雜或高級的技術。最關鍵的部分仍然是數據。這確實與V1的數據驅動動機相同,它利用大規模未標記數據來加快數據擴展并增加數據覆蓋范圍。在這項工作中,將首先重新審視其標記數據設計,然后強調未標記數據的關鍵作用。

下面我們先提出三個關鍵發現。我們將在接下來的三個部分中詳細闡述它們。

問題1:MiDaS或Depth Anything的粗略深度是否來自判別建模本身?是否必須采用基于擴散的復雜建模方式來獲取精細細節?

回答1:不,高效的判別模型也可以產生極其精細的細節。最關鍵的修改是將所有標記的真實圖像替換為精確的合成圖像。

問題2:如果如回答1所述,合成圖像已經明顯優于真實圖像,為什么大多數先前的工作仍然堅持使用真實圖像?

回答2:合成圖像有其缺點,這在以前的范式中并不容易解決。

問題3:如何避免合成圖像的缺點并放大其優勢?

回答3:擴大僅使用合成圖像訓練的教師模型規模,然后通過大規模偽標記真實圖像的橋梁來教授(較小的)學生模型。

經過這些探索后,我們成功構建了一個更加強大的MDE基礎模型。然而,我們發現當前的測試集過于嘈雜,無法反映MDE模型的真實優勢。因此進一步構建了一個具有精確注釋和多樣化場景的多功能評估基準。

重新審視Depth Anything V1的標記數據設計

在MiDaS在無監督單目深度估計方面的開創性工作基礎上,近期研究傾向于構建更大規模的訓練數據集,以努力提升估計性能。值得注意的是,Depth Anything V1、Metric3D V1和V2,以及ZeroDepth,分別從不同來源收集了150萬、800萬、1600萬和1500萬張標記圖像用于訓練。然而,很少有研究對這一趨勢進行了批判性考察:如此大量的標記圖像真的有益嗎?

在回答這個問題之前,讓我們先深入探討真實標記圖像可能被忽視的缺點。真實標記數據的兩個缺點。1) 標簽噪聲,即深度圖中的不準確標簽。由于各種收集程序固有的限制,真實標記數據不可避免地包含不準確的估計。這種不準確可能由多種因素引起,例如深度傳感器無法準確捕獲透明物體的深度(圖3a),立體匹配算法對無紋理或重復模式的脆弱性(圖3b),以及SfM方法在處理動態對象或異常值時的敏感性(圖3c)。

圖片

2)忽略的細節。這些真實數據集往往忽略了其深度圖中的某些細節。如圖4a所示,樹和椅子的深度表示非常粗糙。這些數據集難以在目標邊界或薄孔內提供詳細的監督,導致深度預測過度平滑,如圖4c的中間部分所示。因此,這些噪聲標簽非常不可靠,以至于學習到的模型也會犯類似的錯誤(圖3d)。例如,MiDaS和Depth Anything V1在透明表面挑戰中分別獲得了25.9%和53.5%的糟糕分數。

圖片

為了克服上述問題,決定改變我們的訓練數據,并尋求標記質量顯著更好的圖像。受到最近幾項基于合成數據(SD)的研究的啟發,這些研究僅使用帶有完整深度信息的合成圖像進行訓練,我們廣泛檢查了合成圖像的標簽質量,并注意到它們有可能緩解上述討論的缺點。

合成圖像的優勢。它們的深度標簽在兩個方面非常精確。1) 所有細節(例如,邊界、薄孔、小物體等)都被正確標記。如圖4b所示,即使是所有細小的網格結構和葉子都被標注了真實的深度。2) 我們可以獲取具有挑戰性的透明物體和反射表面的實際深度,例如圖4b中桌子上的花瓶。簡而言之,合成圖像的深度確實是“真實值”(Ground Truth)。在圖4c的右側,我們展示了在合成圖像上訓練的MDE模型的精細預測。此外,我們可以通過從圖形引擎中收集數據來快速擴大合成訓練圖像的數量,與真實圖像相比,這不會引起任何隱私或倫理問題。

使用合成數據的挑戰

如果合成數據如此有優勢,為什么真實數據仍然在MDE中占據主導地位?在本節中,我們識別出合成圖像的兩個限制,這些限制阻礙了它們在現實中的輕松使用。

限制1. 合成圖像和真實圖像之間存在分布差異。盡管當前的圖形引擎努力追求逼真的效果,但它們的風格和顏色分布仍與真實圖像有顯著差異。合成圖像的顏色過于“干凈”,布局過于“有序”,而真實圖像則包含更多的隨機性。例如,比較圖4a和圖4b中的圖像,我們可以立即區分出合成圖像。這種分布差異使得模型很難從合成圖像轉移到真實圖像,即使這兩個數據源具有相似的布局。

限制2. 合成圖像的場景覆蓋范圍有限。它們是從圖形引擎中迭代采樣的,具有預定義的固定場景類型,例如“客廳”和“街道場景”。因此,盡管Hypersim或Virtual KITTI(如圖4b所示)具有驚人的精度,但我們不能期望在這些數據集上訓練的模型在現實世界場景(如“擁擠的人群”)中也能很好地泛化。相比之下,一些從網絡立體圖像(例如HRWSI)或單目視頻(例如MegaDepth)構建的真實數據集,可以覆蓋廣泛的現實世界場景。

因此,在MDE中從合成到真實的遷移并非易事。為了驗證這一說法,我們進行了一項初步研究,僅使用四種流行的預訓練編碼器(包括BEiT、SAM、SynCLR和DINOv2)在合成圖像上學習MDE模型。如圖5所示,只有DINOv2-G取得了令人滿意的結果。其他所有模型系列以及較小的DINOv2模型都存在嚴重的泛化問題。這項初步研究似乎為在MDE中使用合成數據提供了一個直接的解決方案,即基于最大的DINOv2編碼器,并依賴其固有的泛化能力。然而,這種簡單的解決方案面臨兩個問題。首先,當真實測試圖像的模式在合成訓練圖像中很少出現時,DINOv2-G經常遇到失敗的情況。在圖6中,我們可以清楚地觀察到天空(云)和人類頭部的深度預測錯誤。這種失敗是可以預料的,因為我們的合成訓練集不包括多樣化的天空模式或人類。此外,大多數應用無法從存儲和推理效率方面容納資源密集型的DINOv2-G模型(1.3B)。實際上,由于其實時速度,Depth Anything V1中的最小模型被使用得最廣泛。

圖片

為了緩解泛化問題,一些工作使用真實和合成圖像的混合訓練集。不幸的是,真實圖像的粗略深度圖對精細預測具有破壞性。另一個潛在的解決方案是收集更多的合成圖像,但這是不可持續的,因為創建模擬每個現實世界場景的圖形引擎是棘手的。因此,在使用合成數據構建MDE模型時,需要一個可靠的解決方案。在本文中,我們將彌補這一差距,并提出一個解決方案,該方案解決了精確性和魯棒性的兩難問題,無需任何折衷,并且適用于任何模型規模。

大規模未標注真實圖像的關鍵作用

我們的解決方案很直接:結合未標記的真實圖像。我們最強大的MDE模型,基于DINOv2-G,最初僅在高質量的合成圖像上進行訓練。然后,它給未標記的真實圖像分配偽深度標簽。最后,我們的新模型僅使用大規模且精確偽標記的圖像進行訓練。Depth Anything V1已經強調了大規模未標記真實數據的重要性。在這里,在我們特定的合成標記圖像背景下,將從三個角度更詳細地展示其不可或缺的作用。

彌合領域差異。如前所述,由于分布差異,直接從合成訓練圖像轉移到真實測試圖像是具有挑戰性的。但如果我們能利用額外的真實圖像作為中間學習目標,這個過程將更可靠。直觀地看,經過在偽標記的真實圖像上的明確訓練后,模型可以更加熟悉現實世界的數據分布。與手動標注的圖像相比,我們自動生成的偽標簽更加精細和完整,如圖17所示。

圖片

增強場景覆蓋。合成圖像的多樣性有限,沒有包含足夠的現實世界場景。然而,我們可以通過結合來自公共數據集的大規模未標記圖像來輕松覆蓋許多不同的場景。此外,由于合成圖像是從預定義的視頻中重復采樣得到的,因此它們確實非常冗余。相比之下,未標記的真實圖像則清晰可辨且非常具有信息性。通過訓練足夠的圖像和場景,模型不僅顯示出更強的零次學習MDE能力,而且它們還可以作為下游相關任務的更好預訓練源。

將最強大模型的知識轉移到較小的模型中。如圖5所示,較小的模型本身無法直接從合成到真實的遷移中受益。然而,借助大規模未標記的真實圖像,它們可以學習模仿最強大模型的高質量預測,類似于知識蒸餾。但不同的是,我們的蒸餾是在標簽級別上通過額外的未標記真實數據進行的,而不是在特征或邏輯級別上使用原始標記數據。這種做法更安全,因為有證據表明特征級別的蒸餾并不總是有益的,尤其是當教師-學生規模差距很大時。

Depth Anything V2

根據以上所有分析,我們訓練Depth Anything V2的最終流程已經很清晰(如圖7所示)。

圖片

它包含三個步驟:

  1. 僅基于高質量的合成圖像,訓練一個基于DINOv2-G的可靠教師模型。
  2. 在大規模未標注的真實圖像上生成精確的偽深度標簽。
  3. 使用偽標記的真實圖像訓練最終的學生模型以實現魯棒的泛化。

我們將發布四個學生模型,分別基于DINOv2的small, base, large, and giant版本。

如表7所示,我們使用了五個精確的合成數據集(595K張圖像)和八個大規模偽標記的真實數據集(62M張圖像)進行訓練。與V1相同,對于每個偽標記樣本,在訓練過程中忽略其損失最大的前n個區域,其中n設置為10%。我們認為這些區域是潛在的帶有噪聲的偽標簽。類似地,我們的模型生成仿射不變的逆深度。

在標注圖像上使用兩個損失項進行優化:一個尺度和偏移不變損失Lssi和一個梯度匹配損失Lgm。這兩個目標函數并不是新的。但不同的是,我們發現當使用合成圖像時,Lgm對深度銳度非常有益。在偽標注的圖像上,遵循V1添加了一個額外的特征對齊損失,以保留來自預訓練的DINOv2編碼器的信息性語義。

圖片

新的評估基準:DA-2K

1)現有基準的局限性

圖8展示了NYU-D上對于鏡子和薄結構的錯誤標注,盡管使用了專門的深度傳感器。這種頻繁的標簽噪聲使得強大的MDE模型報告的指標不再可靠。除了標簽噪聲外,這些基準的另一個缺點是多樣性有限。它們中的大多數最初是為單一場景提出的。例如,NYU-D主要關注少數室內房間,而KITTI僅包含幾個街道場景。這些基準上的性能可能無法反映現實世界的可靠性。理想情況下,我們希望MDE模型能夠穩健地處理任何未見過的場景。這些現有基準的最后一個問題是分辨率低。它們大多提供分辨率為500×500左右的圖像。但是,使用現代相機,我們通常需要對更高分辨率的圖像(例如1000×2000)進行精確的深度估計。目前尚不清楚從這些低分辨率基準得出的結論是否可以安全地轉移到高分辨率基準上。

2)DA-2K

考慮到上述三個限制,我們旨在構建一個通用的相對單目深度估計評估基準,該基準能夠:1) 提供精確的深度關系,2) 覆蓋廣泛的場景,以及3) 包含主要用于現代用途的高分辨率圖像。事實上,人為標注每個像素的深度是不切實際的,尤其是對于自然圖像。因此,遵循DIW,對每張圖像標注稀疏的深度對。一般來說,給定一張圖像,我們可以選擇其上的兩個像素,并確定它們之間的相對深度(即哪個像素更近)。

具體來說,我們采用兩種不同的流程來選擇像素對。在第一個流程中,如圖9a所示,我們使用SAM自動預測目標mask。我們并不直接使用這些mask,而是利用提示它們的關鍵點(像素)。隨機抽取兩個關鍵點,并查詢四個專家模型對它們的相對深度進行投票。如果有分歧,這一對將被發送給人類標注者來決定真正的相對深度。由于可能存在歧義,標注者可以跳過任何一對。然而,可能存在所有模型都錯誤預測具有挑戰性的像素對的情況,而這些對并未被標注出來。為了解決這個問題,我們引入了第二個流程,其中我們仔細分析圖像并手動識別具有挑戰性的像素對。

為了確保準確性,所有標注都由其他兩位標注者進行三重檢查。為了確保多樣性,首先總結了MDE的八個重要應用場景(圖9b),并請GPT4為每個場景生成相關的多樣化關鍵詞。然后,使用這些關鍵詞從Flickr下載相應的圖像。最后,我們總共對1K張圖像進行了標注,包含2K個像素對。

DA-2K的地位。盡管具有優勢,但我們并不期望DA-2K取代當前的基準。準確的稀疏深度仍然遠未達到場景重建所需的精確密集深度。然而,DA-2K可以被認為是準確密集深度的先決條件。因此,我們認為DA-2K由于其廣泛的場景覆蓋和精確性,可以作為現有基準的有價值補充。它還可以作為用戶為DA-2K中涵蓋的特定場景選擇社區模型的快速前期驗證。最后,我們認為它也是未來多模態LLMs的3D感知能力的潛在測試平臺。

實驗對比

圖片圖片圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-07-19 10:14:13

2024-06-28 09:15:31

2024-02-01 09:46:04

模型數據

2024-06-28 16:03:38

2025-01-27 12:12:25

2024-04-03 09:28:25

數據訓練

2024-03-22 10:24:02

系統評估

2020-02-25 20:55:20

JavaScript開發 技巧

2024-06-18 09:43:26

2024-08-16 10:20:00

自動駕駛模型

2024-10-23 15:40:00

2025-09-09 05:00:00

2024-11-13 09:29:41

SpringCRaCCRIU

2024-03-19 14:43:17

自動駕駛激光

2020-07-22 08:30:02

代碼開發工具

2010-08-05 17:00:04

RIP V2協議

2010-08-06 14:07:21

RIP V2

2021-02-19 23:44:27

Windows 10Windows微軟

2023-11-01 13:15:13

單點端識別框架
點贊
收藏

51CTO技術棧公眾號

91精品视频在线播放| 亚洲欧美一区二区三区极速播放 | 亚洲美女91| 久久777国产线看观看精品| 在线观看精品一区二区三区| 麻豆国产欧美一区二区三区| 国产精品女人网站| 亚洲我射av| 亚洲成人av片在线观看| 香蕉视频在线网站| 欧美激情一区二区三区在线| 中文字幕在线亚洲三区| 欧美日韩亚洲一区三区| 国产成人av在线播放| av一级久久| 亚洲美女又黄又爽在线观看| 麻豆视频在线观看免费网站| 精品成人国产在线观看男人呻吟| 毛葺葺老太做受视频| 国产精品一二三在| 五码日韩精品一区二区三区视频| 欧美 日韩 国产一区二区在线视频 | 欧美人体大胆444www| 久久综合色天天久久综合图片| 亚洲黄色一区二区三区| 伊人成人网在线看| 日韩免费精品| 在线观看不卡一区| 97影院理论午夜| 久久久精品黄色| 国内性生活视频| 成人av在线播放网址| 亚洲av综合色区| 国产精品亚洲综合一区在线观看| 先锋影音亚洲资源| 日韩vs国产vs欧美| 亚洲午夜精品久久久中文影院av | 亚洲欧洲成视频免费观看| 黄在线免费观看| 91精选在线观看| 在线免费观看黄色| 欧美日韩另类国产亚洲欧美一级| 免费黄网站在线观看| 福利一区福利二区微拍刺激| 在线视频中文字幕| 国产精品激情偷乱一区二区∴| 国产理论在线播放| 国产精品天天看| 超碰影院在线观看| 亚洲欧洲成人自拍| 情趣视频网站在线免费观看| 福利精品视频在线| 天天在线视频色| 亚洲成人av片| 日韩一区精品| 久久久欧美一区二区| 九色成人国产蝌蚪91| 国产日韩亚洲欧美| 亚洲精品1234| 在线观看福利一区| 成人av综合在线| 91佛爷在线| 欧美日韩中文精品| 成人av三级| 久久久久久久电影一区| 国产一区不卡| 国产精品国产亚洲精品看不卡15| 日韩电影在线观看电影| 浮妇高潮喷白浆视频| 亚洲另类在线视频| www.欧美日本韩国| 久久久精品久久久| 91久久久精品国产| 黄色www在线观看| ...av二区三区久久精品| 在线视频91p| 中文字幕v亚洲ⅴv天堂| 嫩草一区二区三区| 久久综合久久久| 久久综合久久99| 三级毛片在线免费看| 日韩电影中文字幕在线| 日韩美女毛片| 美女被啪啪一区二区| 99天天综合性| 欧美巨乳在线| 色悠悠国产精品| 重囗味另类老妇506070| 给我免费播放片在线观看| 一区二区三区四区不卡视频| av软件在线观看| 久久6免费高清热精品| 国内在线观看一区二区三区| 日韩人妻无码精品久久久不卡| 亚洲国产乱码最新视频| 都市激情亚洲综合| 国产精品亚洲第一区| 国产乱人伦精品一区二区在线观看 | 福利视频一二区| 婷婷综合另类小说色区| 二区三区不卡| 亚洲精品欧美极品| 99久久久国产精品| 1024视频在线| 午夜精品久久久久久久白皮肤| 国模一区二区三区| 午夜激情av在线| 日韩电影在线观看中文字幕 | 视频国产一区| 精品少妇人妻av一区二区| 亚洲成av人影院| 玖玖精品在线| 久久99精品久久久久久三级| 国产精品私房写真福利视频| 日本伦理一区二区| 国产精品热视频| 91网站视频在线观看| 在线观看男女av免费网址| 国产成人精品久久亚洲高清不卡| 韩国女主播成人在线观看| 伊人75在线| 午夜精品一区二区三区av| 久久99这里只有精品| 北岛玲一区二区三区| 国产精品久久久久久久久久久久久久 | 亚洲国产黄色| 国产xxxxx18| xxxxx91麻豆| 久久精品国产一区二区三| 婷婷六月天丁香| 色综合色综合色综合色综合| 亚洲视频碰碰| 国产1区2区3区| 亚洲人成77777在线观看网| 韩日精品在线| 在线影院福利| 9.1国产丝袜在线观看| 国产成人av电影在线播放| 日日夜夜天天综合入口| 91成人理论电影| 亚洲乱码国产乱码精品精的特点| 亚洲91在线| 91九色国产ts另类人妖| 欧美猛男男办公室激情| 久久一区91| 黑巨人与欧美精品一区| 久久久久久免费精品| 91视频一区二区三区| 99精品国自产在线| 成年丰满熟妇午夜免费视频 | 免费播放片a高清在线观看| 欧美一区二区三区免费观看| 成人av在线影院| 亚洲伦理影院| 大桥未久一区二区三区| 亚洲精品电影在线| 日本不卡视频一二三区| 在线视频观看国产| 欧美日韩亚洲一区二区三区四区| 欧美视频在线观看免费网址| 日韩在线高清| 亚洲尤物在线视频| 国产日韩欧美中文在线播放| 午夜精品久久久久久久| 亚洲第一偷拍| 在线免费观看黄色网址| 欧美一区二区三区精美影视| 黄色视屏在线免费观看| 欧美日韩亚洲激情| 这里只有精品在线| 天堂网www中文在线| 91精品视频观看| 日本高清无吗v一区| 亚洲午夜精品久久久久久app| 国产乱视频在线观看| 久久精品一区二区三区不卡免费视频 | 在线日韩电影| 18av在线视频| 99精品视频网站| 在线亚洲男人天堂| 国产精品盗摄一区二区三区| 国产成人3p视频免费观看| 一区二区三区高清在线视频 | 国产精品久久久久久久久免费高清 | 亚洲自拍欧美色图| 在线亚洲免费视频| 裸体一区二区三区| 精品一区二区三区中文字幕在线 | 美国十次av导航亚洲入口| 视色视频在线观看| 国产精品美乳在线观看| 欧美亚洲综合网| 国内外成人在线视频| 欧美高清一级片| 污导航在线观看| 午夜精品一区二区三区四区 | http;//www.99re视频| 亚洲国产97在线精品一区| 99久久免费视频.com| 日本一区二区免费高清|