文章首發微信公眾號:小小cv筆記 論文題目 pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction 1、簡介 pixelSplat是一個前饋模型,它學習從圖像對中重建三維高斯基元參數化的三維輻射場。模型具有實時和內存高效渲染,可擴展的訓練以及在推理時快速的3D重建。為了克服稀疏和局部支持表示所固有的局部最小值,我們預測了3D上的密集概率分布和該概率分布的樣本高斯均值。通過一個重參數化技巧使這個采樣操作可微,允許我們通過高斯飛濺表示反向傳播梯度。在現實世界的RealEstate10k和ACID數據集上對方法進行了寬基線新視圖合成的基準測試,其中我們優于最先進的光場轉換器,并在重建可解釋和可編輯的3D輻射場時將渲染速度加快了2.5個數量級。 2、背景 1)單場景新穎視圖合成。早期的方法采用體素網格和學習的渲染技術,最近,神經場和體渲染已經成為事實上的標準。然而,這些方法的一個關鍵障礙是它們的高計算需求,因為渲染通常需要對每條光線進行數十次神經場查詢。離散數據結構可以加速渲染,但在高分辨率下無法實現實時渲染。3D高斯噴濺解決了這個問題,它使用3D高斯分布來表示輻射場,可以通過柵格化有效地渲染。然而,所有的單場景優化方法都需要幾十張圖像來實現高質量的新視圖合成。 2)基于先驗的三維重建和視圖合成。可概括的新穎視圖合成旨在從每個場景的少數圖像中實現3D重建和新穎視圖合成。如果代理幾何(如深度圖)可用,機器學習可以與基于圖像的渲染相結合,以產生令人信服的結果。 3)在這項工作中,訓練神經網絡在單個前向傳遞中僅從兩張圖像中估計3D高斯原始場景表示的參數。我們的方法呈現出兩全其美的效果:它以3D高斯形式推斷出可解釋的3D場景表示,同時與光場變壓器相比,渲染速度加快了三個數量級。 3、方法 1)給定一對圖像及相機參數,可推斷出底層場景的三維高斯表示,可以渲染產生看不見的視點的圖像。方法包括一個雙視圖圖像編碼器(解決尺度模糊性)和一個像素對齊的高斯預測模塊。 2)雙視圖圖像編碼器,論文使用兩張圖像進行新視角合成,將兩個參考視圖表示 為I1和 I2 。對I1中的每個像素,利用I2來中對應的外極線,來標注I1相應的深度。深度值是根據I1和 I2 的相機位姿計算出來的 。編碼器通過外極注意力(epipolar attention)找到每個像素的對應關系,并記憶該像素的相應深度。如果在 I2 中沒有對應的像素的深度,則通過每幅圖像的自注意來修復。合成新視角基本都需要補充信息,常見的是加入深度信息,本文也是通過兩幅圖像計算出深度信息作為補充?? 3)在兩個不同的視圖(圖像)中捕獲(投影)時,如何使用三角測量來計算點 (X) 的深度。在此圖中,C1 和 C2 分別是左右攝像頭的已知 3D 位置。x1 是左相機捕獲的 3D 點 X 圖像,x2 是右相機捕獲的 X 圖像。x1 和 x2 稱為對應點,因為它們是同一 3D 點的投影。我們使用 x1 和 C1 找到 L1,使用 x2 和 C2 找到 L2。因此,我們可以使用三角測量來找到 X, 4)像素對齊的高斯預測模塊,提出了像素對齊高斯函數的概率預測。對于輸入特征圖中的每個像素特征F[u],神經網絡f預測高斯原語參數Σ和s,高斯位置μ和不透明度α不能直接預測,這將導致局部最小值。相反,f預測深度p?(z)上的每像素離散概率分布,由φ參數化。然后采樣產生高斯基元的位置。每個高斯的不透明度被設置為采樣深度桶的概率。最后一組高斯原語可以使用3DGS飛濺算法從新的視圖中渲染出來。 5)像素對齊高斯的概率預測,需要:深度桶b∈RZ,像素坐標u處的特征F[u],參考視圖的相機原點o,射線方向du。1、預測深度概率φ和偏置δ,協方差Σ,球諧波系數S,2、樣本深度桶指數z從離散概率分布參數化的φ,3、通過解投影計算高斯平均值μ,深度bz由桶偏移量δz調整,4、根據采樣深度的概率設置高斯不透明度α 4、實驗 1)和其他方法的性能對比 2)和其他方法的可視化對比 3)消融實驗 |