برآورد عمیق نورپردازی محیط‌های بیرونی: رویکرد مبتنی بر شبکه عصبی کانولوشنی از تصاویر تک‌کاناله LDR

فهرست مطالب

1. مقدمه

بازیابی نورپردازی صحنه از یک تصویر واحد، یک مسئله اساسی اما بد-وضع در بینایی کامپیوتر است که برای کاربردهایی مانند واقعیت افزوده (AR)، رندر مبتنی بر تصویر و درک صحنه حیاتی می‌باشد. مقاله "برآورد عمیق نورپردازی محیط‌های بیرونی" به طور خاص این چالش را برای صحنه‌های بیرونی با پیشنهاد یک روش مبتنی بر شبکه عصبی کانولوشنی (CNN) برای پیش‌بینی نورپردازی HDR محیط‌های بیرونی از یک تصویر LDR واحد مورد بررسی قرار می‌دهد. نوآوری اصلی در دور زدن نیاز به ثبت مستقیم نقشه محیطی HDR با استفاده از یک مجموعه داده بزرگ از پانوراماهای LDR و یک مدل آسمان مبتنی بر فیزیک برای تولید یک مجموعه داده آموزشی مصنوعی از جفت‌های پارامتر-تصویر نورپردازی نهفته است.

2. روش‌شناسی

خط لوله پیشنهادی شامل دو مرحله اصلی است: آماده‌سازی مجموعه داده و آموزش/استنتاج CNN.

2.1. ایجاد مجموعه داده و برازش مدل آسمان

نویسندگان با استفاده از یک مجموعه گسترده از پانوراماهای محیط بیرونی، کمبود مجموعه‌های داده جفت‌شده LDR-HDR در مقیاس بزرگ را دور می‌زنند. به جای استفاده مستقیم از پانوراماها به عنوان اهداف HDR، پارامترهای مدل آسمان هوشک-ویلکی را بر روی مناطق قابل مشاهده آسمان در هر پانوراما برازش می‌دهند. این مدل که با مجموعه فشرده‌ای از پارامترها $\Theta = \{\theta_{sun}, \theta_{atm}, ...\}$ نمایش داده می‌شود، موقعیت خورشید، شرایط جوی و کدورت را توصیف می‌کند. این مرحله اطلاعات پیچیده و کروی کامل نورپردازی را به یک بردار کم‌بعدی و دارای معنی فیزیکی فشرده می‌کند که برای یادگیری توسط یک CNN قابل مدیریت است. تصاویر برش‌خورده با میدان دید محدود از پانوراماها استخراج می‌شوند تا به عنوان ورودی CNN عمل کنند و جفت‌های آموزشی $(I_{LDR}, \Theta)$ را ایجاد نمایند.

2.2. معماری CNN و آموزش

یک CNN آموزش داده می‌شود تا رگرسیون از یک تصویر ورودی LDR به بردار پارامترهای مدل هوشک-ویلکی $\Theta$ را انجام دهد. شبکه، نگاشت پیچیده بین سرنخ‌های بصری در تصویر (رنگ آسمان، نشانه‌های موقعیت خورشید، سایه‌ها، تُن کلی صحنه) و شرایط فیزیکی نورپردازی زیرین را یاد می‌گیرد. در زمان آزمون، با دریافت یک تصویر LDR جدید، شبکه $\hat{\Theta}$ را پیش‌بینی می‌کند. سپس این پارامترها می‌توانند همراه با مدل هوشک-ویلکی برای سنتز یک نقشه محیطی HDR کامل استفاده شوند که متعاقباً برای کارهایی مانند درج واقع‌گرایانه اشیاء مجازی به کار می‌رود.

3. جزئیات فنی و فرمول‌بندی ریاضی

مدل آسمان هوشک-ویلکی در قلب این روش قرار دارد. این یک مدل آسمان طیفی است که تابندگی $L(\gamma, \alpha)$ را برای یک نقطه آسمان مشخص شده توسط زاویه سمت‌الرأس آن $\gamma$ و زاویه سمت‌الرأس خورشید $\alpha$ محاسبه می‌کند. این مدل چندین تقریب تجربی برای پراکندگی جوی را در بر می‌گیرد. فرآیند برازش شامل کمینه‌سازی خطا بین خروجی مدل و پیکسل‌های آسمان مشاهده‌شده پانوراما برای یافتن مجموعه پارامتر بهینه $\Theta^*$ است:

$$\Theta^* = \arg\min_{\Theta} \sum_{p \in SkyPixels} || L_{model}(p; \Theta) - I_{panorama}(p) ||^2$$

این $\Theta^*$ بازیابی‌شده به عنوان داده صحیح (ground truth) برای آموزش CNN عمل می‌کند. تابع زیان برای آموزش CNN معمولاً یک زیان رگرسیون مانند میانگین مربعات خطا (MSE) یا یک گونه مقاوم مانند زیان Smooth L1 بین پارامترهای پیش‌بینی‌شده $\hat{\Theta}$ و داده صحیح $\Theta^*$ است.

4. نتایج تجربی و ارزیابی

4.1. ارزیابی کمی

مقاله روش را هم بر روی مجموعه داده پانوراما و هم بر روی یک مجموعه جداگانه از نقشه‌های محیطی HDR ثبت‌شده ارزیابی می‌کند. معیارهای احتمالی شامل خطای زاویه‌ای در موقعیت پیش‌بینی‌شده خورشید، خطا در پارامترهای نورپردازی و معیارهای مبتنی بر تصویر برای اشیاء رندر شده است. نویسندگان ادعا می‌کنند که رویکرد آنها "به طور قابل توجهی از راه‌حل‌های قبلی بهتر عمل می‌کند"، که شامل روش‌های متکی بر سرنخ‌های دست‌ساز مانند سایه‌ها [26] یا تجزیه تصویر ذاتی [3, 29] می‌شود.

4.2. نتایج کیفی و درج شیء مجازی

قانع‌کننده‌ترین نمایش، درج واقع‌گرایانه اشیاء مجازی در تصاویر آزمون است. شکل 1 در PDF به صورت مفهومی این خط لوله را نشان می‌دهد: یک تصویر ورودی LDR به CNN داده می‌شود، که پارامترهای آسمان مورد استفاده برای بازسازی یک نقشه محیطی HDR را خروجی می‌دهد. سپس یک شیء مجازی تحت این نورپردازی تخمین‌زده‌شده رندر شده و در تصویر اصلی ترکیب می‌شود. نتایج موفق، نشان‌دهنده هماهنگی در جهت نور، رنگ و شدت بین شیء مجازی و صحنه واقعی هستند که دقت نورپردازی تخمین‌زده‌شده را تأیید می‌کند.

5. چارچوب تحلیلی: بینش اصلی و جریان منطقی

بینش اصلی: نبوغ مقاله در راه‌حل ظریف و داده‌محور آن نهفته است. به جای پرداختن به کار غیرممکن جمع‌آوری جفت‌های عظیم LDR-HDR دنیای واقعی، نویسندگان به طور هوشمندانه‌ای پانوراماهای LDR موجود را با استفاده از یک مدل فیزیکی پارامتری به عنوان یک "پل" برای تولید نظارت HDR محتمل، بازهدف‌گذاری می‌کنند. این یادآور تغییر پارادایم ایجاد شده توسط کارهایی مانند CycleGAN است که نگاشت‌هایی بین دامنه‌ها بدون نمونه‌های جفت‌شده یاد گرفتند. در اینجا، مدل هوشک-ویلکی به عنوان یک معلم آگاه از فیزیک عمل می‌کند که نورپردازی پیچیده را به یک بازنمایی قابل یادگیری تقطیر می‌کند.

جریان منطقی: منطق آن صحیح است اما بر یک فرض حیاتی استوار است: اینکه مدل هوشک-ویلکی به اندازه کافی دقیق و عمومی است تا شرایط نورپردازی متنوع در پانوراماهای آموزشی را نمایش دهد. هرگونه سوگیری سیستماتیک در مدل یا فرآیند برازش، مستقیماً در "داده صحیح" CNN پخته می‌شود و حد بالایی عملکرد آن را محدود می‌کند. جریان به این صورت است: پانوراما (LDR) -> برازش مدل -> پارامترها (حقیقت فشرده) -> آموزش CNN -> تصویر تک‌کاناله -> پیش‌بینی پارامتر -> سنتز HDR. این یک مثال کلاسیک از "یادگیری معکوس یک مدل رو به جلو" است.

نقاط قوت و ضعف: نقطه قوت اصلی، عملی بودن و مقیاس‌پذیری است. این روش قابل آموزش است و برای زمان خود نتایج پیشرفته‌ای تولید می‌کند. با این حال، نقاط ضعف آن ذاتی طراحی آن است. اولاً، اساساً به شرایط آسمان صاف و روزانه مدل‌شده توسط هوشک-ویلکی محدود است. آسمان ابری، آب‌وهوای دراماتیک یا اثرات دره شهری با نور غیرمستقیم پیچیده به خوبی مدیریت نمی‌شوند. ثانیاً، به آسمان قابل مشاهده در تصویر ورودی نیاز دارد - یک محدودیت مهم برای بسیاری از عکس‌های تولید شده توسط کاربر. این روش، همانطور که توضیح داده شد، یک رگرسور مدل آسمان است، نه یک برآوردگر کامل نورپردازی صحنه.

بینش‌های قابل اجرا: برای متخصصان، این کار یک کلاس استادانه در استفاده از نظارت غیرمستقیم است. نکته کلیدی این است که همیشه به دنبال دارایی‌های داده موجود (مانند پایگاه‌های داده پانوراما) و دانش دامنه (مانند مدل‌های فیزیکی) باشید که می‌توانند برای ایجاد سیگنال‌های آموزشی ترکیب شوند. تکامل آینده این ایده، همانطور که در کارهای بعدی از Google Research و MIT مشاهده می‌شود، حرکت فراتر از مدل‌های آسمان پارامتری به سمت پیش‌بینی نقشه محیطی HDR غیرپارامتری سرتاسری با استفاده از معماری‌های قدرتمندتر (مانند GANها یا NeRFها) و حتی مجموعه‌های داده بزرگتر و متنوع‌تر است که به طور بالقوه اطلاعات زمانی از ویدیوها را نیز در بر می‌گیرد.

6. چشم‌انداز کاربردی و جهت‌های آینده

کاربرد فوری آن در واقعیت افزوده برای درج باورپذیر اشیاء بیرونی در عکاسی و فیلم (مانند جلوه‌های بصری) است. جهت‌های آینده شامل موارد زیر می‌شود:

گسترش مدل‌های نورپردازی: ادغام مدل‌هایی برای آسمان ابری، گرگ‌ومیش و نورپردازی مصنوعی شبانه برای پوشش طیف وسیع‌تری از شرایط.
برآورد بدون آسمان: توسعه تکنیک‌هایی که بتوانند نورپردازی را از سطوح زمین، سایه‌ها و سایه‌زنی اشیاء زمانی که آسمان مسدود است استنباط کنند، شاید با گنجاندن برآورد صریح هندسه.
نورپردازی پویا: گسترش رویکرد به ویدیو برای تخمین نورپردازی متغیر با زمان، که برای AR یکنواخت در صحنه‌های پویا حیاتی است.
ادغام با رندر عصبی: جفت‌سازی برآورد نورپردازی با میدان‌های تابندگی عصبی (NeRF) برای بازسازی و نورپردازی مجدد مشترک صحنه، جهتی که به طور فعال توسط آزمایشگاه‌هایی مانند UC Berkeley و NVIDIA دنبال می‌شود.
بهینه‌سازی روی دستگاه: معماری‌های شبکه سبک‌وزن برای برآورد بلادرنگ روی دستگاه‌های همراه، که امکان کاربردهای AR مصرف‌کننده را فراهم می‌کند.

7. مراجع

Hold-Geoffroy, Y., Sunkavalli, K., Hadap, S., Gambaretto, E., & Lalonde, J. F. (2018). Deep Outdoor Illumination Estimation. arXiv preprint arXiv:1611.06403.
Hošek, L., & Wilkie, A. (2012). An analytic model for full spectral sky-dome radiance. ACM Transactions on Graphics (TOG), 31(4), 1-9.
Barron, J. T., & Malik, J. (2015). Shape, illumination, and reflectance from shading. IEEE transactions on pattern analysis and machine intelligence, 37(8), 1670-1687.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European conference on computer vision (pp. 405-421). Springer, Cham.
Google AI Blog: "Looking to Lift: A New Model for Estimating Outdoor Illumination" (نماینده تحقیقات صنعتی پیگیری).