برآورد نورپردازی HDR داخلی با سازگاری فضایی-زمانی: یک چارچوب یادگیری عمیق برای واقع‌نمایی افزوده

فهرست مطالب

1. مقدمه

گسترش دستگاه‌های همراه، تقاضا برای برنامه‌های پیشرفته واقعیت افزوده (AR) مانند بهبود صحنه واقع‌نما و حضور از راه دور را تسریع کرده است. سنگ بنای چنین برنامه‌هایی، برآورد نورپردازی با کیفیت بالا و سازگار از تصاویر تکی یا دنباله‌های ویدیویی است. این وظیفه به ویژه در محیط‌های داخلی به دلیل تعامل پیچیده هندسه‌ها، مواد و منابع نور متنوع، که اغلب شامل تعاملات برد بلند و انسدادها می‌شود، چالش‌برانگیز است.

ورودی‌های دستگاه‌های مصرفی معمولاً تصاویر LDR (محدوده دینامیکی پایین) پراکنده با میدان دید محدود هستند (به عنوان مثال، تنها حدود ۶٪ از یک صحنه پانوراما را ثبت می‌کنند). بنابراین، چالش اصلی، بازسازی اطلاعات HDR (محدوده دینامیکی بالا) مفقود و استنتاج بخش‌های نامرئی صحنه (مانند منابع نور خارج از قاب) برای تولید یک مدل نورپردازی کامل و از نظر فضایی سازگار است. علاوه بر این، برای ورودی‌های ویدیویی، پیش‌بینی‌ها باید از نظر زمانی پایدار بمانند تا از لرزش یا انتقال‌های ناهنجار در لایه‌های AR جلوگیری شود.

این مقاله اولین چارچوبی را ارائه می‌دهد که برای دستیابی به برآورد نورپردازی HDR داخلی با سازگاری فضایی-زمانی طراحی شده است. این چارچوب نورپردازی را در هر موقعیت تصویری از یک تصویر LDR تکی و نقشه عمق پیش‌بینی می‌کند و هنگامی که یک دنباله ویدیویی داده می‌شود، پیش‌بینی‌ها را به تدریج بهبود بخشیده و در عین حال هماهنگی زمانی روان را حفظ می‌کند.

2. روش‌شناسی

چارچوب پیشنهادی یک سیستم یادگیری عمیق چند مؤلفه‌ای با انگیزه فیزیکی است.

2.1. حجم نورپردازی گاوسی کروی (SGLV)

بازنمایی اصلی، یک حجم نورپردازی گاوسی کروی (SGLV) است. به جای پیش‌بینی یک نقشه محیطی تکی برای کل صحنه، این روش یک حجم سه‌بعدی را بازسازی می‌کند که در آن هر وکسل شامل پارامترهایی برای مجموعه‌ای از گاوسی‌های کروی (SG) است که توزیع نورپردازی محلی را نشان می‌دهند. گاوسی‌های کروی یک تقریب کارآمد برای نورپردازی پیچیده هستند که به صورت زیر تعریف می‌شوند: $G(\mathbf{v}; \mathbf{\mu}, \lambda, a) = a \cdot e^{\lambda(\mathbf{\mu} \cdot \mathbf{v} - 1)}$ که در آن $\mathbf{\mu}$ محور لوب، $\lambda$ تیزی لوب و $a$ دامنه لوب است. این بازنمایی حجمی کلید دستیابی به سازگاری فضایی است.

2.2. معماری رمزگذار-رمزگشای سه‌بعدی

یک شبکه رمزگذار-رمزگشای سه‌بعدی سفارشی، تصویر LDR ورودی و نقشه عمق متناظر آن (که در یک فضای سه‌بعدی مشترک تراز شده‌اند) را گرفته و SGLV را خروجی می‌دهد. رمزگذار ویژگی‌های چندمقیاسی را استخراج می‌کند، در حالی که رمزگشا نمونه‌برداری مجدد را برای بازسازی حجم با وضوح بالا انجام می‌دهد.

2.3. رهگیری پرتو حجمی برای سازگاری فضایی

برای پیش‌بینی نقشه محیطی برای یک نقطه دید خاص (به عنوان مثال، برای قرار دادن یک شیء مجازی)، چارچوب رهگیری پرتو حجمی را از طریق SGLV انجام می‌دهد. پرتوها از مکان هدف تابیده می‌شوند و سهم نورپردازی در امتداد هر جهت پرتو با نمونه‌برداری و ترکیب پارامترهای SG از وکسل‌های قطع‌شده، یکپارچه می‌شود. این فرآیند مبتنی بر فیزیک، اطمینان می‌دهد که پیش‌بینی‌های نورپردازی در مکان‌های مختلف صحنه از نظر هندسی سازگار هستند.

2.4. شبکه ترکیبی برای نقشه‌های محیطی

پارامترهای SG خام حاصل از رهگیری پرتو، به یک شبکه ترکیبی تغذیه می‌شوند. این شبکه تخمین نورپردازی خام را به یک نقشه محیطی HDR با جزئیات و وضوح بالا تصفیه می‌کند و جزئیات ظریفی مانند بازتاب‌ها از سطوح مرئی را بازیابی می‌کند.

2.5. لایه رندرینگ مونت‌کارلو درون‌شبکه‌ای

یک نوآوری حیاتی، یک لایه رندرینگ مونت‌کارلو درون‌شبکه‌ای است. این لایه نقشه محیطی HDR پیش‌بینی شده و یک مدل سه‌بعدی از یک شیء مجازی را گرفته، آن را با رهگیری مسیر رندر می‌کند و نتیجه را با یک رندرینگ صحیح مقایسه می‌کند. گرادیان حاصل از این تابع زیان واقع‌نما، از طریق خط لوله پیش‌بینی نورپردازی به صورت پس‌انتشار منتقل می‌شود و مستقیماً برای هدف نهایی قرار دادن واقع‌نمای شیء بهینه‌سازی می‌کند.

2.6. شبکه‌های عصبی بازگشتی برای سازگاری زمانی

برای ورودی دنباله ویدیویی، چارچوب شبکه‌های عصبی بازگشتی (RNN) را در بر می‌گیرد. RNNها اطلاعات را از فریم‌های گذشته جمع‌آوری می‌کنند و به سیستم اجازه می‌دهند تا با مشاهده بیشتر صحنه، SGLV را به تدریج بهبود بخشد. مهم‌تر از آن، آن‌ها انتقال‌های روان بین پیش‌بینی‌ها در فریم‌های متوالی را اعمال می‌کنند، لرزش را حذف کرده و هماهنگی زمانی را تضمین می‌کنند.

3. بهبود مجموعه داده: OpenRooms

آموزش چنین مدلی که به داده‌های زیادی نیاز دارد، مستلزم یک مجموعه داده عظیم از صحنه‌های داخلی با نورپردازی HDR صحیح است. نویسندگان مجموعه داده عمومی OpenRooms را به طور قابل توجهی بهبود بخشیدند. نسخه بهبودیافته شامل تقریباً ۳۶۰,۰۰۰ نقشه محیطی HDR با وضوح بسیار بالاتر و ۳۸,۰۰۰ دنباله ویدیویی است که همگی با استفاده از رهگیری مسیر شتاب‌یافته GPU برای دقت فیزیکی رندر شده‌اند. این مجموعه داده یک مشارکت عمده برای جامعه تحقیقاتی است.

آمار مجموعه داده

۳۶۰ هزار نقشه محیطی HDR

۳۸ هزار دنباله ویدیویی

داده صحیح رندر شده با رهگیری مسیر

4. آزمایش‌ها و نتایج

4.1. تنظیمات آزمایشی

چارچوب پیشنهادی در برابر روش‌های برآورد نورپردازی پیشرفته مبتنی بر تصویر تکی (مانند [Gardner و همکاران ۲۰۱۷]، [Song و همکاران ۲۰۲۲]) و مبتنی بر ویدیو ارزیابی شد. معیارها شامل معیارهای استاندارد مبتنی بر تصویر (PSNR، SSIM) بر روی اشیاء رندر شده، و همچنین معیارهای ادراکی (LPIPS) و مطالعات کاربری برای ارزیابی واقع‌نمایی بودند.

4.2. نتایج کمی

روش پیشنهادی در مقایسه‌های کمی از همه روش‌های پایه بهتر عمل کرد. این روش نمرات PSNR و SSIM بالاتری برای رندرینگ اشیاء مجازی به دست آورد که نشان‌دهنده پیش‌بینی نورپردازی دقیق‌تر است. نمرات معیار ادراکی (LPIPS) نیز برتر بودند که نشان می‌دهد نتایج برای ناظران انسانی واقع‌نماتر بودند.

4.3. نتایج کیفی و مقایسه‌های بصری

نتایج کیفی، همانطور که در شکل ۱ PDF پیشنهاد شده است، مزایای قابل توجهی را نشان می‌دهد:

بازیابی منابع نور نامرئی: این روش با موفقیت وجود و ویژگی‌های منابع نور خارج از میدان دید دوربین را استنتاج می‌کند.
بازتاب‌های سطحی دقیق: نقشه‌های محیطی پیش‌بینی شده حاوی بازتاب‌های واضح و دقیق سطوح مرئی اتاق (دیوارها، مبلمان) هستند که برای رندرینگ اشیاء آینه‌ای و براق حیاتی هستند.
سازگاری فضایی: اشیاء مجازی قرار داده شده در مکان‌های مختلف در همان صحنه، نورپردازی‌ای را نشان می‌دهند که با هندسه محلی و نورپردازی سراسری سازگار است.
ملایمت زمانی: در دنباله‌های ویدیویی، نورپردازی روی اشیاء قرار داده شده با حرکت دوربین به آرامی تکامل می‌یابد، بدون آثار پرش یا لرزش رایج در روش‌های فریم به فریم.

4.4. مطالعات حذفی

مطالعات حذفی اهمیت هر مؤلفه را تأیید کرد:

حذف SGLV و رهگیری پرتو حجمی منجر به پیش‌بینی‌های ناسازگار فضایی شد.
حذف لایه رندرینگ مونت‌کارلو درون‌شبکه‌ای منجر به قرارگیری کمتر واقع‌نمای اشیاء شد، علیرغم معیارهای خوب نقشه محیطی.
غیرفعال کردن RNNها برای پردازش ویدیو باعث لرزش زمانی قابل توجهی شد.

5. جزئیات فنی و فرمول‌بندی ریاضی

تابع زیان یک هدف چند جمله‌ای است: $\mathcal{L} = \mathcal{L}_{env} + \alpha \mathcal{L}_{render} + \beta \mathcal{L}_{temp}$

$\mathcal{L}_{env}$: یک زیان L2 بین نقشه‌های محیطی HDR پیش‌بینی شده و صحیح.
$\mathcal{L}_{render}$: زیان رندرینگ واقع‌نمای حاصل از لایه مونت‌کارلو درون‌شبکه‌ای. این به عنوان تفاوت بین شیء مجازی رندر شده با استفاده از نورپردازی پیش‌بینی شده و رندرینگ صحیح رهگیری مسیر محاسبه می‌شود.
$\mathcal{L}_{temp}$: یک زیان ملایمت زمانی که بر پارامترهای SGLV در فریم‌های متوالی یک دنباله ویدیویی اعمال می‌شود و توسط RNNها اجرا می‌شود.

پارامترهای $\alpha$ و $\beta$ سهم هر جمله را متعادل می‌کنند.

6. چارچوب تحلیل: بینش اصلی و جریان منطقی

بینش اصلی: پیشرفت بنیادی مقاله صرفاً یک شبکه عصبی بهتر برای نقشه‌های محیطی نیست؛ بلکه شناخت این است که نورپردازی یک ویژگی میدان سه‌بعدی است، نه یک بافت وابسته به دید دو بعدی. با تغییر خروجی از یک پانورامای دو بعدی به یک حجم نورپردازی گاوسی کروی سه‌بعدی (SGLV)، نویسندگان مشکل سازگاری فضایی را در ریشه آن حل می‌کنند. این یک جهش مفهومی مشابه تغییر از رندرینگ مبتنی بر تصویر به میدان‌های تابندگی عصبی (NeRF) [Mildenhall و همکاران ۲۰۲۰] است - بازنمایی را به فضای ذاتی سه‌بعدی صحنه منتقل می‌کند. رندرر مونت‌کارلو درون‌شبکه‌ای دومین ضربه استادانه است که یک پیوند مستقیم مبتنی بر گرادیان بین تخمین نورپردازی و معیار نهایی موفقیت ایجاد می‌کند: واقع‌نمایی در ترکیب AR.

جریان منطقی: منطق معماری به طور بی‌عیب علی است. ۱) متن‌سازی سه‌بعدی: ورودی (LDR + عمق) در یک حجم ویژگی سه‌بعدی ادغام می‌شود. ۲) بازسازی نورپردازی حجمی: رمزگشا یک SGLV - یک مدل نورپردازی آگاه از فضا - را خروجی می‌دهد. ۳) فیزیک مشتق‌پذیر: رهگیری پرتو حجمی این مدل را برای هر نقطه دیدی پرس و جو می‌کند و با ساختار، سازگاری فضایی را تضمین می‌کند. ۴) تصفیه ظاهر و بهینه‌سازی مستقیم: یک شبکه دو بعدی جزئیات فرکانس بالا را اضافه می‌کند و لایه مونت‌کارلو مستقیماً برای کیفیت رندر نهایی بهینه‌سازی می‌کند. ۵) یکپارچه‌سازی زمانی: برای ویدیو، RNNها به عنوان یک حافظه عمل می‌کنند، SGLV را در طول زمان بهبود بخشیده و خروجی را برای ملایمت فیلتر پایین‌گذر می‌کنند. هر مرحله یک ضعف خاص از کارهای قبلی را برطرف می‌کند.

7. نقاط قوت، ضعف‌ها و بینش‌های عملی

نقاط قوت:

بازنمایی بنیادی: SGLV یک بازنمایی ظریف و قدرتمند است که احتمالاً بر کارهای آینده فراتر از برآورد نورپردازی تأثیر خواهد گذاشت.
بهینه‌سازی سرتاسری برای وظیفه: رندرر درون‌شبکه‌ای یک مثال درخشان از طراحی زیان خاص وظیفه است که فراتر از زیان‌های جایگزین (مانند L2 روی نقشه‌های محیطی) حرکت کرده و برای هدف واقعی بهینه‌سازی می‌کند.
راه‌حل جامع: این چارچوب هم مشکلات تصویر تکی و هم ویدیو را در یک چارچوب یکپارچه مورد توجه قرار می‌دهد و سازگاری فضایی و زمانی را به طور همزمان برطرف می‌کند - ترکیبی نادر.
مشارکت منابع: مجموعه داده بهبودیافته OpenRooms یک دارایی عمده برای جامعه تحقیقاتی است.

ضعف‌ها و سؤالات حیاتی:

وابستگی به عمق: این روش نیاز به یک نقشه عمق دارد. در حالی که حسگرهای عمق رایج هستند، عملکرد روی ورودی‌های RGB تک‌چشمی نامشخص است. این کاربردپذیری را برای رسانه‌های قدیمی یا دستگاه‌های بدون حسگر عمق محدود می‌کند.
هزینه محاسباتی: آموزش شامل رهگیری مسیر است. استنتاج نیاز به رهگیری پرتو حجمی دارد. این هنوز یک راه‌حل سبک موبایلی نیست. مقاله در مورد سرعت استنتاج یا فشرده‌سازی مدل سکوت کرده است.
تعمیم به داده‌های "در دنیای واقعی": مدل روی یک مجموعه داده مصنوعی و رهگیری مسیر (OpenRooms) آموزش دیده است. عملکرد آن روی عکس‌های موبایلی واقعی، پرنویز و با نوردهی ضعیف - که اغلب مفروضات فیزیکی رهگیری مسیر را نقض می‌کنند - همچنان سؤال میلیارد دلاری برای استقرار AR باقی می‌ماند.
ابهام مواد: مانند همه وظایف رندرینگ معکوس، برآورد نورپردازی با برآورد مواد سطح درهم تنیده است. چارچوب هندسه شناخته شده یا به طور تقریبی تخمین زده شده را فرض می‌کند اما به طور صریح برای مواد حل نمی‌کند که ممکن است دقت را در صحنه‌های پیچیده و غیرلامبرتی محدود کند.

بینش‌های عملی:

برای محققان: پارادایم SGLV + رهگیری حجمی نکته کلیدی است. کاربرد آن را در وظایف مرتبط مانند ترکیب دید یا برآورد مواد بررسی کنید. تکنیک‌های خودنظارتی یا انطباق در زمان آزمایش را برای پل زدن شکاف شبیه‌سازی به واقعیت برای داده‌های موبایلی دنیای واقعی بررسی کنید.
برای مهندسان/تیم‌های محصول: این را به عنوان یک مرجع استاندارد طلایی برای AR با وفاداری بالا در نظر بگیرید. برای یکپارچه‌سازی محصول در کوتاه‌مدت، بر تقطیر این مدل (به عنوان مثال، از طریق تقطیر دانش [Hinton و همکاران ۲۰۱۵]) به یک نسخه مناسب موبایل که بتواند در زمان واقعی اجرا شود، تمرکز کنید، شاید با تقریب SGLV با یک ساختار داده کارآمدتر.
برای استراتژیست‌های داده: ارزش داده‌های مصنوعی با کیفیت بالا اثبات شده است. در تولید مجموعه داده‌های مصنوعی متنوع‌تر و از نظر فیزیکی دقیق‌تر که طیف وسیع‌تری از پدیده‌های نورپردازی (مانند کاستیک‌های پیچیده، محیط‌های مشارکت‌کننده) را ثبت می‌کنند، سرمایه‌گذاری کنید.

8. چشم‌انداز کاربردی و جهت‌های آینده

کاربردهای فوری:

خلق محتوای AR سطح بالا: ابزارهای حرفه‌ای برای فیلم، معماری و طراحی داخلی که در آن قرار دادن شیء مجازی واقع‌نما حیاتی است.
حضور از راه دور و کنفرانس غوطه‌ورکننده: نورپردازی صورت کاربر به طور سازگار با یک محیط دور برای تماس‌های ویدیویی واقع‌نما.
تجارت الکترونیک و خرده‌فروشی: امکان تجسم محصولات (مبلمان، دکور، لوازم خانگی) توسط مشتریان در خانه خودشان تحت شرایط نورپردازی دقیق.

جهت‌های تحقیقاتی آینده:

رندرینگ معکوس یکپارچه: گسترش چارچوب برای تخمین مشترک نورپردازی، مواد و هندسه از ورودی‌های پراکنده، حرکت به سمت یک خط لوله کامل درک صحنه.
کارایی و استقرار روی دستگاه: تحقیق در مورد فشرده‌سازی مدل، تکنیک‌های رندرینگ عصبی کارآمد و معماری‌های آگاه از سخت‌افزار برای آوردن این سطح کیفیت به AR موبایل در زمان واقعی.
مدیریت نورپردازی پویا: کار فعلی بر صحنه‌های ایستا تمرکز دارد. یک مرز اصلی، تخمین و پیش‌بینی تغییرات نورپردازی پویا است (مانند روشن/خاموش کردن چراغ‌ها، منابع نور متحرک، تغییر نور خورشید).
یکپارچه‌سازی با بازنمایی‌های عصبی صحنه: ترکیب مفهوم SGLV با بازنمایی‌های ضمنی مانند NeRF یا پاشش گاوسی سه‌بعدی [Kerbl و همکاران ۲۰۲۳] برای ایجاد یک مدل عصبی صحنه کاملاً مشتق‌پذیر و قابل ویرایش.

9. مراجع

Zhengqin Li, Li Yu, Mikhail Okunev, Manmohan Chandraker, Zhao Dong. "Spatiotemporally Consistent HDR Indoor Lighting Estimation." ACM Trans. Graph. (Proc. SIGGRAPH), 2023.
Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." ECCV, 2020.
Geoffrey Hinton, Oriol Vinyals, Jeff Dean. "Distilling the Knowledge in a Neural Network." arXiv:1503.02531, 2015.
Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM Trans. Graph., 2023.
Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV, 2017. (CycleGAN - برای مفاهیم انطباق دامنه مرتبط با شبیه‌سازی به واقعیت ارجاع داده شده است).
OpenRooms Dataset. https://openrooms.github.io/