時空一致的高動態範圍室內光照估計：一個用於實現照片級真實感擴增實境的深度學習框架

1. 引言

行動裝置的普及催化了對先進擴增實境（AR）應用程式的需求，例如照片級真實感的場景增強與遠端臨場感。此類應用程式的基石在於從單張影像或影片序列中進行高品質、一致的光照估計。由於室內環境中多樣化的幾何形狀、材質與光源之間複雜的相互作用，通常涉及長距離交互與遮擋，使得這項任務在室內環境中尤其具有挑戰性。

來自消費性裝置的輸入通常是稀疏的低動態範圍影像，且視野有限（例如，僅捕捉全景場景的約6%）。因此，核心挑戰在於「想像」出缺失的高動態範圍資訊，並推斷場景中不可見的部分（例如畫面外的光源），以生成一個完整、空間一致的光照模型。此外，對於影片輸入，預測必須保持時間上的穩定性，以避免AR疊加層出現閃爍或突兀的過渡。

本文提出了首個旨在實現時空一致的HDR室內光照估計的框架。它能從單張LDR影像和深度圖預測任何影像位置的光照；當給定影片序列時，它能在保持平滑時間連貫性的同時，逐步精煉預測結果。

2. 方法論

所提出的框架是一個多組件、基於物理原理的深度學習系統。

2.1. 球面高斯光照體積

核心表示法是一個球面高斯光照體積。此方法並非為整個場景預測單一環境貼圖，而是重建一個3D體積，其中每個體素包含一組代表局部光照分佈的球面高斯參數。球面高斯是複雜光照的有效近似，定義為： $G(\mathbf{v}; \mathbf{\mu}, \lambda, a) = a \cdot e^{\lambda(\mathbf{\mu} \cdot \mathbf{v} - 1)}$ 其中 $\mathbf{\mu}$ 是波瓣軸，$\lambda$ 是波瓣銳利度，$a$ 是波瓣振幅。這種體積表示法是實現空間一致性的關鍵。

2.2. 3D 編碼器-解碼器架構

一個特製的3D編碼器-解碼器網路接收輸入的LDR影像及其對應的深度圖（對齊到共同的3D空間），並輸出SGLV。編碼器提取多尺度特徵，而解碼器則進行上採樣以重建高解析度的體積。

2.3. 用於空間一致性的體積光線追蹤

為了預測特定視角（例如，用於插入虛擬物體）的環境貼圖，該框架透過SGLV執行體積光線追蹤。光線從目標位置投射，並透過對相交體素中的SG參數進行取樣與融合，來積分沿著每個光線方向的光照貢獻。這個基於物理的過程確保了場景中不同位置的光照預測在幾何上是一致的。

2.4. 環境貼圖的混合融合網路

來自光線追蹤的原始SG參數被送入一個混合融合網路。該網路將粗略的光照估計精煉成一個詳細、高解析度的HDR環境貼圖，恢復細微細節，例如來自可見表面的反射。

2.5. 網路內蒙地卡羅渲染層

一個關鍵的創新是網路內蒙地卡羅渲染層。該層接收預測的HDR環境貼圖和虛擬物體的3D模型，使用路徑追蹤進行渲染，並將結果與真實路徑追蹤渲染進行比較。來自此照片級真實感損失的梯度透過光照預測流程反向傳播，直接針對真實物體插入的最終目標進行優化。

2.6. 用於時間一致性的循環神經網路

對於影片序列輸入，該框架整合了循環神經網路。RNN聚合來自過去影格的資訊，使系統能夠在觀察到更多場景時逐步精煉SGLV。更重要的是，它們強制執行連續影格間預測的平滑過渡，消除閃爍並確保時間連貫性。

3. 資料集增強：OpenRooms

訓練這樣一個需要大量資料的模型，需要一個擁有真實HDR光照標註的大規模室內場景資料集。作者們大幅增強了公開的OpenRooms資料集。增強版本包含約360,000張HDR環境貼圖（解析度更高）以及38,000個影片序列，全部使用GPU加速的路徑追蹤渲染以確保物理準確性。此資料集是對研究社群的重大貢獻。

資料集統計

360K HDR 環境貼圖

38K 影片序列

路徑追蹤真實標註

4. 實驗與結果

4.1. 實驗設定

該框架與最先進的單張影像（例如，[Gardner et al. 2017], [Song et al. 2022]）和基於影片的光照估計方法進行了比較評估。評估指標包括渲染物體上的標準影像指標（PSNR、SSIM），以及感知指標（LPIPS）和用於評估照片真實感的用戶研究。

4.2. 量化結果

所提出的方法在量化比較中超越了所有基準方法。它在虛擬物體渲染上獲得了更高的PSNR和SSIM分數，表明光照預測更準確。感知指標（LPIPS）分數也更優，表明結果對人類觀察者而言更具照片真實感。

4.3. 質化結果與視覺比較

如PDF中圖1所示，質化結果展現了顯著優勢：

恢復不可見光源：該方法成功推斷出相機視野外光源的存在與屬性。
詳細的表面反射：預測的環境貼圖包含清晰、準確的可見房間表面（牆壁、傢俱）反射，這對於渲染鏡面和光澤物體至關重要。
空間一致性：插入同一場景中不同位置的虛擬物體，其光照與局部幾何形狀和全域照明保持一致。
時間平滑度：在影片序列中，隨著相機移動，插入物體上的光照平滑演變，沒有逐幀方法常見的突變或閃爍瑕疵。

4.4. 消融研究

消融研究確認了每個組件的重要性：

移除SGLV和體積光線追蹤會導致空間不一致的預測。
省略網路內蒙地卡羅渲染層會導致物體插入的照片真實感降低，儘管環境貼圖指標良好。
停用用於影片處理的RNN會導致明顯的時間閃爍。

5. 技術細節與數學公式

損失函數是一個多項目標： $\mathcal{L} = \mathcal{L}_{env} + \alpha \mathcal{L}_{render} + \beta \mathcal{L}_{temp}$

$\mathcal{L}_{env}$：預測與真實HDR環境貼圖之間的L2損失。
$\mathcal{L}_{render}$：來自網路內蒙地卡羅層的照片級真實感渲染損失。這是使用預測光照渲染的虛擬物體與真實路徑追蹤渲染之間的差異。
$\mathcal{L}_{temp}$：應用於影片序列中連續影格間SGLV參數的時間平滑度損失，由RNN強制執行。

參數 $\alpha$ 和 $\beta$ 平衡了各項的貢獻。

6. 分析框架：核心洞見與邏輯流程

核心洞見：本文的根本突破不僅僅是一個更好的環境貼圖神經網路；而是認識到光照是一種3D場屬性，而非2D視角依賴的紋理。透過將輸出從2D全景圖轉變為3D球面高斯光照體積，作者從根本上解決了空間一致性的問題。這是一個概念上的飛躍，類似於從基於影像的渲染轉向神經輻射場的轉變——它將表示法移入了場景內在的3D空間。網路內蒙地卡羅渲染器是第二個妙招，它在光照估計與最終的成功指標（AR合成中的照片真實感）之間建立了直接的、基於梯度的連結。

邏輯流程：該架構的邏輯具有無可挑剔的因果關係。1) 3D情境化：輸入（LDR + 深度）融合成一個3D特徵體積。2) 體積光照重建：解碼器輸出SGLV——一個具有空間感知的光照模型。3) 可微分物理：體積光線追蹤為任何視角查詢此模型，透過建構確保空間一致性。4) 外觀精煉與直接優化：一個2D網路增加了高頻細節，而蒙地卡羅層則直接針對最終渲染品質進行優化。5) 時間整合：對於影片，RNN充當記憶庫，隨著時間推移精煉SGLV，並對輸出進行低通濾波以實現平滑度。每一步都解決了先前技術的特定弱點。

7. 優勢、缺陷與可行洞見

優勢：

基礎性表示法：SGLV是一個優雅且強大的表示法，很可能會影響光照估計之外的未來工作。
針對任務的端到端優化：網路內渲染器是任務特定損失設計的絕佳範例，超越了代理損失（如環境貼圖上的L2損失），直接針對實際目標進行優化。
全面性解決方案：它在一個統一的框架內解決了單張影像和影片問題，同時處理了空間和時間一致性——這是一個罕見的組合。
資源貢獻：增強的OpenRooms資料集是研究社群的重大資產。

缺陷與關鍵問題：

深度依賴性：該方法需要深度圖。雖然深度感測器很常見，但對於單目RGB輸入的性能尚不明確。這限制了其在沒有深度感測功能的舊媒體或裝置上的適用性。
計算成本：訓練涉及路徑追蹤。推論需要體積光線追蹤。目前這不是一個輕量級的行動解決方案。本文未提及推論速度或模型壓縮。
對「真實世界」資料的泛化能力：該模型是在合成的、路徑追蹤的資料集（OpenRooms）上訓練的。其在真實世界、有雜訊、曝光不良的行動照片上的性能——這些照片通常違反路徑追蹤的物理假設——仍然是AR部署的關鍵問題。
材質模糊性：與所有逆向渲染任務一樣，光照估計與表面材質估計糾纏在一起。該框架假設已知或粗略估計的幾何形狀，但並未明確求解材質，這可能限制了在複雜、非朗伯場景中的準確性。

可行洞見：

對研究人員：SGLV + 體積追蹤範式是關鍵要點。探索其在相關任務（如視角合成或材質估計）中的應用。研究自監督或測試時適應技術，以彌合真實世界行動資料的模擬到現實差距。
對工程師/產品團隊：將其視為高保真AR的黃金標準參考。對於近期的產品整合，重點在於將此模型（例如，透過知識蒸餾）提煉成一個行動裝置友好的版本，能夠即時運行，或許可以透過使用更高效的資料結構來近似SGLV。
對資料策略師：高品質合成資料的價值已得到證實。投資於生成更多樣化、物理準確的合成資料集，以捕捉更廣泛的光照現象（例如，複雜的焦散、參與介質）。

8. 應用展望與未來方向

近期應用：

高端AR內容創作：用於電影、建築和室內設計的專業工具，其中照片級真實感的虛擬物體插入至關重要。
沉浸式遠端臨場感與會議：將使用者的臉部光照與遠端環境保持一致，以實現逼真的視訊通話。
電子商務與零售：讓顧客能夠在準確的光照條件下，在自己的家中視覺化產品（傢俱、裝飾、家電）。

未來研究方向：

統一的逆向渲染：擴展該框架，從稀疏輸入中聯合估計光照、材質和幾何形狀，邁向完整的場景理解流程。
效率與裝置端部署：研究模型壓縮、高效神經渲染技術以及硬體感知架構，將此等級的品質帶入即時行動AR。
處理動態光照：目前的工作聚焦於靜態場景。一個主要的前沿是估計和預測動態光照變化（例如，開關燈、移動光源、變化的陽光）。
與神經場景表示法的整合：將SGLV概念與隱式表示法（如NeRF或3D高斯潑濺）結合，創建一個完全可微分、可編輯的神經場景模型。

9. 參考文獻

Zhengqin Li, Li Yu, Mikhail Okunev, Manmohan Chandraker, Zhao Dong. "Spatiotemporally Consistent HDR Indoor Lighting Estimation." ACM Trans. Graph. (Proc. SIGGRAPH), 2023.
Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." ECCV, 2020.
Geoffrey Hinton, Oriol Vinyals, Jeff Dean. "Distilling the Knowledge in a Neural Network." arXiv:1503.02531, 2015.
Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM Trans. Graph., 2023.
Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV, 2017. (CycleGAN - 參考了與模擬到現實相關的領域適應概念)。
OpenRooms Dataset. https://openrooms.github.io/

目錄