光影和諧化：具備光照感知的人像背景替換技術

1. 簡介

人像和諧化是計算攝影與影像編輯中的關鍵任務，旨在將前景主體無縫合成至新背景中。傳統方法通常無法處理複雜的光照交互作用，導致結果不真實。本文介紹了光影和諧化，這是一種新穎的、基於擴散模型的框架，能明確地建模並將光照條件從背景轉移至前景人像，從而實現卓越的相片真實感。

2. 方法論

所提出的框架在三個核心階段中運作，超越了簡單的色彩匹配，以實現真正的光照一致性。

2.1 光照表徵模組

此模組從單一目標背景影像中提取隱含的光照線索（例如方向、強度、色溫）。它將這些線索編碼為潛在的光照表徵 $L_{bg}$，作為擴散模型的條件訊號。這繞過了在推論過程中需要明確高動態範圍環境貼圖的需求。

2.2 對齊網路

為了將學習到的光照特徵置於具有物理意義的空間中，引入了對齊網路。它在訓練過程中，將從影像推導出的光照特徵 $L_{bg}$ 與從完整全景環境貼圖 $L_{env}$ 中提取的特徵進行對齊。這種連接確保模型能學習到對場景照明強健且可泛化的理解，這已透過如Laval Indoor HDR等資料集得到驗證。

2.3 合成資料流程

一個關鍵創新是能生成多樣化、高品質訓練配對的資料模擬流程。它將來自現有資料集（例如 FFHQ）的人物主體合成到具有已知光照的各種背景上，創造出配對資料 {前景，背景，和諧化的真實結果}，而無需昂貴的光照舞台捕捉。這解決了該領域的一個主要資料瓶頸。

3. 技術細節

該模型建立在預訓練的潛在擴散模型之上。核心生成過程由光照條件引導。在時間步 $t$ 的去噪過程可以公式化為：

$\epsilon_\theta(z_t, t, \tau(L_{bg}), \tau(mask))$

其中 $z_t$ 是帶噪聲的潛在變數，$\epsilon_\theta$ 是 UNet 去噪器，$\tau(\cdot)$ 表示條件編碼器，$L_{bg}$ 是背景光照表徵，而 $mask$ 是前景透明度遮罩。對齊網路最佳化特徵一致性損失 $\mathcal{L}_{align} = ||\phi(L_{bg}) - \psi(L_{env})||_2$，其中 $\phi$ 和 $\psi$ 是投影網路。

4. 實驗與結果

該方法與最先進的和諧化方法（例如 DoveNet、S2AM）以及重光照基準進行了比較評估。量化指標（PSNR、SSIM、LPIPS、FID）和使用者研究一致將光影和諧化評為視覺真實感和光照一致性最高的方法。

圖 1 分析： 本文的圖 1 有力地展示了模型的能力。它展示了四個真實世界的例子，其中直接合成（將主體貼上背景）由於光照方向和陰影位置不匹配而顯得突兀。相比之下，模型的輸出令人信服地重新照亮了主體：膚色適應環境色彩，高光和陰影被重新定位以匹配新的光源，整體整合呈現出相片真實感。

5. 分析框架：核心洞見與評論

核心洞見： 本文的根本突破在於認識到真正的和諧化是偽裝的重光照問題。雖然先前的工作如CycleGAN（Zhu 等人，2017）在非配對風格轉換方面表現出色，但它僅將光照視為一種色彩風格。這項工作正確地將光照方向、陰影投射和鏡面高光識別為幾何和物理現象，必須明確建模，而不僅僅是統計匹配。它巧妙地利用了擴散模型的結構先驗來解決這個不適定的逆問題。

邏輯流程： 三階段流程的邏輯非常優雅。1) 從影像中感知光照（一個困難的問題）。2) 在訓練期間將該感知奠基於已知的、完整的表徵（全景貼圖）中，以確保物理合理性。3) 合成大量的訓練資料來教導模型這種複雜的映射。這是一個執行良好的經典「定義、對齊、擴展」研究策略。

優點與缺點： 主要優點是其實用性——它僅需單一背景影像即可工作，這相較於需要高動態範圍全景圖的方法是一大優勢。合成資料流程是實現可擴展性的妙招。然而，缺點在於其不透明性：作為一個密集的擴散模型，它是一個黑盒子。我們無法獲得可解釋的光照模型（例如一個 3D 球諧係數向量）作為輸出，這限制了其在下游圖形流程中的應用。它也可能難以處理極端的光照對比或高鏡面反射材質，這是生成模型的常見失敗模式。

可行洞見： 對於產品團隊而言，這是一個可立即整合到高階照片編輯工具中的 API。對於研究人員而言，未來方向很明確：1) 解耦潛在光照編碼為可解釋的參數（方向、強度、柔和度）。2) 擴展至影片以實現時間一致性——這是一個巨大但必要的挑戰。3) 與 NeRF/3D 重建社群合作。邏輯終點不僅僅是和諧化一個 2D 圖層，而是將一個重新照亮的3D 資產插入到場景中，這是 MIT CSAIL 和 Google Research 等專案共享的願景。

6. 未來應用與方向

擴增實境與虛擬實境： 將即時攝影機畫面與虛擬環境進行即時和諧化，以創造沉浸式體驗。
電影與影片後製： 為合成到電腦生成影像背景中的角色進行自動化且一致的光照調整，大幅降低視覺特效成本。
虛擬試穿與時尚： 將逼真的光照和陰影應用於合成到使用者照片上的產品或服裝。
遠端呈現與視訊會議： 為所有參與者標準化光照條件，以創造一個連貫的虛擬會議空間。
研究方向： 與具備 3D 感知的生成模型（例如 3D 高斯潑濺）整合，以實現視角一致的重光照和陰影投射。

7. 參考文獻

Ren, M., Xiong, W., Yoon, J. S., 等人. (2024). Relightful Harmonization: Lighting-aware Portrait Background Replacement. arXiv:2312.06886v2.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE ICCV.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. IEEE CVPR.
Zhang, L., 等人. (2021). S2AM: A Lightweight Network for Image Harmonization. ACM MM.
Debevec, P. (2012). The Light Stage and its Applications to Photoreal Digital Actors. SIGGRAPH Courses.
Mildenhall, B., 等人. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.

目錄