فهرست مطالب
1. مقدمه
بازیابی نورپردازی صحنه از یک تصویر واحد، یک مسئله اساسی اما بد-وضع در بینایی کامپیوتر است که برای کاربردهایی مانند واقعیت افزوده (AR)، رندر مبتنی بر تصویر و درک صحنه حیاتی میباشد. مقاله "برآورد عمیق نورپردازی محیطهای بیرونی" به طور خاص این چالش را برای صحنههای بیرونی با پیشنهاد یک روش مبتنی بر شبکه عصبی کانولوشنی (CNN) برای پیشبینی نورپردازی HDR محیطهای بیرونی از یک تصویر LDR واحد مورد بررسی قرار میدهد. نوآوری اصلی در دور زدن نیاز به ثبت مستقیم نقشه محیطی HDR با استفاده از یک مجموعه داده بزرگ از پانوراماهای LDR و یک مدل آسمان مبتنی بر فیزیک برای تولید یک مجموعه داده آموزشی مصنوعی از جفتهای پارامتر-تصویر نورپردازی نهفته است.
2. روششناسی
خط لوله پیشنهادی شامل دو مرحله اصلی است: آمادهسازی مجموعه داده و آموزش/استنتاج CNN.
2.1. ایجاد مجموعه داده و برازش مدل آسمان
نویسندگان با استفاده از یک مجموعه گسترده از پانوراماهای محیط بیرونی، کمبود مجموعههای داده جفتشده LDR-HDR در مقیاس بزرگ را دور میزنند. به جای استفاده مستقیم از پانوراماها به عنوان اهداف HDR، پارامترهای مدل آسمان هوشک-ویلکی را بر روی مناطق قابل مشاهده آسمان در هر پانوراما برازش میدهند. این مدل که با مجموعه فشردهای از پارامترها $\Theta = \{\theta_{sun}, \theta_{atm}, ...\}$ نمایش داده میشود، موقعیت خورشید، شرایط جوی و کدورت را توصیف میکند. این مرحله اطلاعات پیچیده و کروی کامل نورپردازی را به یک بردار کمبعدی و دارای معنی فیزیکی فشرده میکند که برای یادگیری توسط یک CNN قابل مدیریت است. تصاویر برشخورده با میدان دید محدود از پانوراماها استخراج میشوند تا به عنوان ورودی CNN عمل کنند و جفتهای آموزشی $(I_{LDR}, \Theta)$ را ایجاد نمایند.
2.2. معماری CNN و آموزش
یک CNN آموزش داده میشود تا رگرسیون از یک تصویر ورودی LDR به بردار پارامترهای مدل هوشک-ویلکی $\Theta$ را انجام دهد. شبکه، نگاشت پیچیده بین سرنخهای بصری در تصویر (رنگ آسمان، نشانههای موقعیت خورشید، سایهها، تُن کلی صحنه) و شرایط فیزیکی نورپردازی زیرین را یاد میگیرد. در زمان آزمون، با دریافت یک تصویر LDR جدید، شبکه $\hat{\Theta}$ را پیشبینی میکند. سپس این پارامترها میتوانند همراه با مدل هوشک-ویلکی برای سنتز یک نقشه محیطی HDR کامل استفاده شوند که متعاقباً برای کارهایی مانند درج واقعگرایانه اشیاء مجازی به کار میرود.
3. جزئیات فنی و فرمولبندی ریاضی
مدل آسمان هوشک-ویلکی در قلب این روش قرار دارد. این یک مدل آسمان طیفی است که تابندگی $L(\gamma, \alpha)$ را برای یک نقطه آسمان مشخص شده توسط زاویه سمتالرأس آن $\gamma$ و زاویه سمتالرأس خورشید $\alpha$ محاسبه میکند. این مدل چندین تقریب تجربی برای پراکندگی جوی را در بر میگیرد. فرآیند برازش شامل کمینهسازی خطا بین خروجی مدل و پیکسلهای آسمان مشاهدهشده پانوراما برای یافتن مجموعه پارامتر بهینه $\Theta^*$ است:
$$\Theta^* = \arg\min_{\Theta} \sum_{p \in SkyPixels} || L_{model}(p; \Theta) - I_{panorama}(p) ||^2$$
این $\Theta^*$ بازیابیشده به عنوان داده صحیح (ground truth) برای آموزش CNN عمل میکند. تابع زیان برای آموزش CNN معمولاً یک زیان رگرسیون مانند میانگین مربعات خطا (MSE) یا یک گونه مقاوم مانند زیان Smooth L1 بین پارامترهای پیشبینیشده $\hat{\Theta}$ و داده صحیح $\Theta^*$ است.
4. نتایج تجربی و ارزیابی
4.1. ارزیابی کمی
مقاله روش را هم بر روی مجموعه داده پانوراما و هم بر روی یک مجموعه جداگانه از نقشههای محیطی HDR ثبتشده ارزیابی میکند. معیارهای احتمالی شامل خطای زاویهای در موقعیت پیشبینیشده خورشید، خطا در پارامترهای نورپردازی و معیارهای مبتنی بر تصویر برای اشیاء رندر شده است. نویسندگان ادعا میکنند که رویکرد آنها "به طور قابل توجهی از راهحلهای قبلی بهتر عمل میکند"، که شامل روشهای متکی بر سرنخهای دستساز مانند سایهها [26] یا تجزیه تصویر ذاتی [3, 29] میشود.
4.2. نتایج کیفی و درج شیء مجازی
قانعکنندهترین نمایش، درج واقعگرایانه اشیاء مجازی در تصاویر آزمون است. شکل 1 در PDF به صورت مفهومی این خط لوله را نشان میدهد: یک تصویر ورودی LDR به CNN داده میشود، که پارامترهای آسمان مورد استفاده برای بازسازی یک نقشه محیطی HDR را خروجی میدهد. سپس یک شیء مجازی تحت این نورپردازی تخمینزدهشده رندر شده و در تصویر اصلی ترکیب میشود. نتایج موفق، نشاندهنده هماهنگی در جهت نور، رنگ و شدت بین شیء مجازی و صحنه واقعی هستند که دقت نورپردازی تخمینزدهشده را تأیید میکند.
5. چارچوب تحلیلی: بینش اصلی و جریان منطقی
بینش اصلی: نبوغ مقاله در راهحل ظریف و دادهمحور آن نهفته است. به جای پرداختن به کار غیرممکن جمعآوری جفتهای عظیم LDR-HDR دنیای واقعی، نویسندگان به طور هوشمندانهای پانوراماهای LDR موجود را با استفاده از یک مدل فیزیکی پارامتری به عنوان یک "پل" برای تولید نظارت HDR محتمل، بازهدفگذاری میکنند. این یادآور تغییر پارادایم ایجاد شده توسط کارهایی مانند CycleGAN است که نگاشتهایی بین دامنهها بدون نمونههای جفتشده یاد گرفتند. در اینجا، مدل هوشک-ویلکی به عنوان یک معلم آگاه از فیزیک عمل میکند که نورپردازی پیچیده را به یک بازنمایی قابل یادگیری تقطیر میکند.
جریان منطقی: منطق آن صحیح است اما بر یک فرض حیاتی استوار است: اینکه مدل هوشک-ویلکی به اندازه کافی دقیق و عمومی است تا شرایط نورپردازی متنوع در پانوراماهای آموزشی را نمایش دهد. هرگونه سوگیری سیستماتیک در مدل یا فرآیند برازش، مستقیماً در "داده صحیح" CNN پخته میشود و حد بالایی عملکرد آن را محدود میکند. جریان به این صورت است: پانوراما (LDR) -> برازش مدل -> پارامترها (حقیقت فشرده) -> آموزش CNN -> تصویر تککاناله -> پیشبینی پارامتر -> سنتز HDR. این یک مثال کلاسیک از "یادگیری معکوس یک مدل رو به جلو" است.
نقاط قوت و ضعف: نقطه قوت اصلی، عملی بودن و مقیاسپذیری است. این روش قابل آموزش است و برای زمان خود نتایج پیشرفتهای تولید میکند. با این حال، نقاط ضعف آن ذاتی طراحی آن است. اولاً، اساساً به شرایط آسمان صاف و روزانه مدلشده توسط هوشک-ویلکی محدود است. آسمان ابری، آبوهوای دراماتیک یا اثرات دره شهری با نور غیرمستقیم پیچیده به خوبی مدیریت نمیشوند. ثانیاً، به آسمان قابل مشاهده در تصویر ورودی نیاز دارد - یک محدودیت مهم برای بسیاری از عکسهای تولید شده توسط کاربر. این روش، همانطور که توضیح داده شد، یک رگرسور مدل آسمان است، نه یک برآوردگر کامل نورپردازی صحنه.
بینشهای قابل اجرا: برای متخصصان، این کار یک کلاس استادانه در استفاده از نظارت غیرمستقیم است. نکته کلیدی این است که همیشه به دنبال داراییهای داده موجود (مانند پایگاههای داده پانوراما) و دانش دامنه (مانند مدلهای فیزیکی) باشید که میتوانند برای ایجاد سیگنالهای آموزشی ترکیب شوند. تکامل آینده این ایده، همانطور که در کارهای بعدی از Google Research و MIT مشاهده میشود، حرکت فراتر از مدلهای آسمان پارامتری به سمت پیشبینی نقشه محیطی HDR غیرپارامتری سرتاسری با استفاده از معماریهای قدرتمندتر (مانند GANها یا NeRFها) و حتی مجموعههای داده بزرگتر و متنوعتر است که به طور بالقوه اطلاعات زمانی از ویدیوها را نیز در بر میگیرد.
6. چشمانداز کاربردی و جهتهای آینده
کاربرد فوری آن در واقعیت افزوده برای درج باورپذیر اشیاء بیرونی در عکاسی و فیلم (مانند جلوههای بصری) است. جهتهای آینده شامل موارد زیر میشود:
- گسترش مدلهای نورپردازی: ادغام مدلهایی برای آسمان ابری، گرگومیش و نورپردازی مصنوعی شبانه برای پوشش طیف وسیعتری از شرایط.
- برآورد بدون آسمان: توسعه تکنیکهایی که بتوانند نورپردازی را از سطوح زمین، سایهها و سایهزنی اشیاء زمانی که آسمان مسدود است استنباط کنند، شاید با گنجاندن برآورد صریح هندسه.
- نورپردازی پویا: گسترش رویکرد به ویدیو برای تخمین نورپردازی متغیر با زمان، که برای AR یکنواخت در صحنههای پویا حیاتی است.
- ادغام با رندر عصبی: جفتسازی برآورد نورپردازی با میدانهای تابندگی عصبی (NeRF) برای بازسازی و نورپردازی مجدد مشترک صحنه، جهتی که به طور فعال توسط آزمایشگاههایی مانند UC Berkeley و NVIDIA دنبال میشود.
- بهینهسازی روی دستگاه: معماریهای شبکه سبکوزن برای برآورد بلادرنگ روی دستگاههای همراه، که امکان کاربردهای AR مصرفکننده را فراهم میکند.
7. مراجع
- Hold-Geoffroy, Y., Sunkavalli, K., Hadap, S., Gambaretto, E., & Lalonde, J. F. (2018). Deep Outdoor Illumination Estimation. arXiv preprint arXiv:1611.06403.
- Hošek, L., & Wilkie, A. (2012). An analytic model for full spectral sky-dome radiance. ACM Transactions on Graphics (TOG), 31(4), 1-9.
- Barron, J. T., & Malik, J. (2015). Shape, illumination, and reflectance from shading. IEEE transactions on pattern analysis and machine intelligence, 37(8), 1670-1687.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
- Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European conference on computer vision (pp. 405-421). Springer, Cham.
- Google AI Blog: "Looking to Lift: A New Model for Estimating Outdoor Illumination" (نماینده تحقیقات صنعتی پیگیری).