فهرست مطالب
1. مقدمه
گسترش دستگاههای همراه، تقاضا برای برنامههای پیشرفته واقعیت افزوده (AR) مانند بهبود صحنه واقعنما و حضور از راه دور را تسریع کرده است. سنگ بنای چنین برنامههایی، برآورد نورپردازی با کیفیت بالا و سازگار از تصاویر تکی یا دنبالههای ویدیویی است. این وظیفه به ویژه در محیطهای داخلی به دلیل تعامل پیچیده هندسهها، مواد و منابع نور متنوع، که اغلب شامل تعاملات برد بلند و انسدادها میشود، چالشبرانگیز است.
ورودیهای دستگاههای مصرفی معمولاً تصاویر LDR (محدوده دینامیکی پایین) پراکنده با میدان دید محدود هستند (به عنوان مثال، تنها حدود ۶٪ از یک صحنه پانوراما را ثبت میکنند). بنابراین، چالش اصلی، بازسازی اطلاعات HDR (محدوده دینامیکی بالا) مفقود و استنتاج بخشهای نامرئی صحنه (مانند منابع نور خارج از قاب) برای تولید یک مدل نورپردازی کامل و از نظر فضایی سازگار است. علاوه بر این، برای ورودیهای ویدیویی، پیشبینیها باید از نظر زمانی پایدار بمانند تا از لرزش یا انتقالهای ناهنجار در لایههای AR جلوگیری شود.
این مقاله اولین چارچوبی را ارائه میدهد که برای دستیابی به برآورد نورپردازی HDR داخلی با سازگاری فضایی-زمانی طراحی شده است. این چارچوب نورپردازی را در هر موقعیت تصویری از یک تصویر LDR تکی و نقشه عمق پیشبینی میکند و هنگامی که یک دنباله ویدیویی داده میشود، پیشبینیها را به تدریج بهبود بخشیده و در عین حال هماهنگی زمانی روان را حفظ میکند.
2. روششناسی
چارچوب پیشنهادی یک سیستم یادگیری عمیق چند مؤلفهای با انگیزه فیزیکی است.
2.1. حجم نورپردازی گاوسی کروی (SGLV)
بازنمایی اصلی، یک حجم نورپردازی گاوسی کروی (SGLV) است. به جای پیشبینی یک نقشه محیطی تکی برای کل صحنه، این روش یک حجم سهبعدی را بازسازی میکند که در آن هر وکسل شامل پارامترهایی برای مجموعهای از گاوسیهای کروی (SG) است که توزیع نورپردازی محلی را نشان میدهند. گاوسیهای کروی یک تقریب کارآمد برای نورپردازی پیچیده هستند که به صورت زیر تعریف میشوند: $G(\mathbf{v}; \mathbf{\mu}, \lambda, a) = a \cdot e^{\lambda(\mathbf{\mu} \cdot \mathbf{v} - 1)}$ که در آن $\mathbf{\mu}$ محور لوب، $\lambda$ تیزی لوب و $a$ دامنه لوب است. این بازنمایی حجمی کلید دستیابی به سازگاری فضایی است.
2.2. معماری رمزگذار-رمزگشای سهبعدی
یک شبکه رمزگذار-رمزگشای سهبعدی سفارشی، تصویر LDR ورودی و نقشه عمق متناظر آن (که در یک فضای سهبعدی مشترک تراز شدهاند) را گرفته و SGLV را خروجی میدهد. رمزگذار ویژگیهای چندمقیاسی را استخراج میکند، در حالی که رمزگشا نمونهبرداری مجدد را برای بازسازی حجم با وضوح بالا انجام میدهد.
2.3. رهگیری پرتو حجمی برای سازگاری فضایی
برای پیشبینی نقشه محیطی برای یک نقطه دید خاص (به عنوان مثال، برای قرار دادن یک شیء مجازی)، چارچوب رهگیری پرتو حجمی را از طریق SGLV انجام میدهد. پرتوها از مکان هدف تابیده میشوند و سهم نورپردازی در امتداد هر جهت پرتو با نمونهبرداری و ترکیب پارامترهای SG از وکسلهای قطعشده، یکپارچه میشود. این فرآیند مبتنی بر فیزیک، اطمینان میدهد که پیشبینیهای نورپردازی در مکانهای مختلف صحنه از نظر هندسی سازگار هستند.
2.4. شبکه ترکیبی برای نقشههای محیطی
پارامترهای SG خام حاصل از رهگیری پرتو، به یک شبکه ترکیبی تغذیه میشوند. این شبکه تخمین نورپردازی خام را به یک نقشه محیطی HDR با جزئیات و وضوح بالا تصفیه میکند و جزئیات ظریفی مانند بازتابها از سطوح مرئی را بازیابی میکند.
2.5. لایه رندرینگ مونتکارلو درونشبکهای
یک نوآوری حیاتی، یک لایه رندرینگ مونتکارلو درونشبکهای است. این لایه نقشه محیطی HDR پیشبینی شده و یک مدل سهبعدی از یک شیء مجازی را گرفته، آن را با رهگیری مسیر رندر میکند و نتیجه را با یک رندرینگ صحیح مقایسه میکند. گرادیان حاصل از این تابع زیان واقعنما، از طریق خط لوله پیشبینی نورپردازی به صورت پسانتشار منتقل میشود و مستقیماً برای هدف نهایی قرار دادن واقعنمای شیء بهینهسازی میکند.
2.6. شبکههای عصبی بازگشتی برای سازگاری زمانی
برای ورودی دنباله ویدیویی، چارچوب شبکههای عصبی بازگشتی (RNN) را در بر میگیرد. RNNها اطلاعات را از فریمهای گذشته جمعآوری میکنند و به سیستم اجازه میدهند تا با مشاهده بیشتر صحنه، SGLV را به تدریج بهبود بخشد. مهمتر از آن، آنها انتقالهای روان بین پیشبینیها در فریمهای متوالی را اعمال میکنند، لرزش را حذف کرده و هماهنگی زمانی را تضمین میکنند.
3. بهبود مجموعه داده: OpenRooms
آموزش چنین مدلی که به دادههای زیادی نیاز دارد، مستلزم یک مجموعه داده عظیم از صحنههای داخلی با نورپردازی HDR صحیح است. نویسندگان مجموعه داده عمومی OpenRooms را به طور قابل توجهی بهبود بخشیدند. نسخه بهبودیافته شامل تقریباً ۳۶۰,۰۰۰ نقشه محیطی HDR با وضوح بسیار بالاتر و ۳۸,۰۰۰ دنباله ویدیویی است که همگی با استفاده از رهگیری مسیر شتابیافته GPU برای دقت فیزیکی رندر شدهاند. این مجموعه داده یک مشارکت عمده برای جامعه تحقیقاتی است.
آمار مجموعه داده
۳۶۰ هزار نقشه محیطی HDR
۳۸ هزار دنباله ویدیویی
داده صحیح رندر شده با رهگیری مسیر
4. آزمایشها و نتایج
4.1. تنظیمات آزمایشی
چارچوب پیشنهادی در برابر روشهای برآورد نورپردازی پیشرفته مبتنی بر تصویر تکی (مانند [Gardner و همکاران ۲۰۱۷]، [Song و همکاران ۲۰۲۲]) و مبتنی بر ویدیو ارزیابی شد. معیارها شامل معیارهای استاندارد مبتنی بر تصویر (PSNR، SSIM) بر روی اشیاء رندر شده، و همچنین معیارهای ادراکی (LPIPS) و مطالعات کاربری برای ارزیابی واقعنمایی بودند.
4.2. نتایج کمی
روش پیشنهادی در مقایسههای کمی از همه روشهای پایه بهتر عمل کرد. این روش نمرات PSNR و SSIM بالاتری برای رندرینگ اشیاء مجازی به دست آورد که نشاندهنده پیشبینی نورپردازی دقیقتر است. نمرات معیار ادراکی (LPIPS) نیز برتر بودند که نشان میدهد نتایج برای ناظران انسانی واقعنماتر بودند.
4.3. نتایج کیفی و مقایسههای بصری
نتایج کیفی، همانطور که در شکل ۱ PDF پیشنهاد شده است، مزایای قابل توجهی را نشان میدهد:
- بازیابی منابع نور نامرئی: این روش با موفقیت وجود و ویژگیهای منابع نور خارج از میدان دید دوربین را استنتاج میکند.
- بازتابهای سطحی دقیق: نقشههای محیطی پیشبینی شده حاوی بازتابهای واضح و دقیق سطوح مرئی اتاق (دیوارها، مبلمان) هستند که برای رندرینگ اشیاء آینهای و براق حیاتی هستند.
- سازگاری فضایی: اشیاء مجازی قرار داده شده در مکانهای مختلف در همان صحنه، نورپردازیای را نشان میدهند که با هندسه محلی و نورپردازی سراسری سازگار است.
- ملایمت زمانی: در دنبالههای ویدیویی، نورپردازی روی اشیاء قرار داده شده با حرکت دوربین به آرامی تکامل مییابد، بدون آثار پرش یا لرزش رایج در روشهای فریم به فریم.
4.4. مطالعات حذفی
مطالعات حذفی اهمیت هر مؤلفه را تأیید کرد:
- حذف SGLV و رهگیری پرتو حجمی منجر به پیشبینیهای ناسازگار فضایی شد.
- حذف لایه رندرینگ مونتکارلو درونشبکهای منجر به قرارگیری کمتر واقعنمای اشیاء شد، علیرغم معیارهای خوب نقشه محیطی.
- غیرفعال کردن RNNها برای پردازش ویدیو باعث لرزش زمانی قابل توجهی شد.
5. جزئیات فنی و فرمولبندی ریاضی
تابع زیان یک هدف چند جملهای است: $\mathcal{L} = \mathcal{L}_{env} + \alpha \mathcal{L}_{render} + \beta \mathcal{L}_{temp}$
- $\mathcal{L}_{env}$: یک زیان L2 بین نقشههای محیطی HDR پیشبینی شده و صحیح.
- $\mathcal{L}_{render}$: زیان رندرینگ واقعنمای حاصل از لایه مونتکارلو درونشبکهای. این به عنوان تفاوت بین شیء مجازی رندر شده با استفاده از نورپردازی پیشبینی شده و رندرینگ صحیح رهگیری مسیر محاسبه میشود.
- $\mathcal{L}_{temp}$: یک زیان ملایمت زمانی که بر پارامترهای SGLV در فریمهای متوالی یک دنباله ویدیویی اعمال میشود و توسط RNNها اجرا میشود.
6. چارچوب تحلیل: بینش اصلی و جریان منطقی
بینش اصلی: پیشرفت بنیادی مقاله صرفاً یک شبکه عصبی بهتر برای نقشههای محیطی نیست؛ بلکه شناخت این است که نورپردازی یک ویژگی میدان سهبعدی است، نه یک بافت وابسته به دید دو بعدی. با تغییر خروجی از یک پانورامای دو بعدی به یک حجم نورپردازی گاوسی کروی سهبعدی (SGLV)، نویسندگان مشکل سازگاری فضایی را در ریشه آن حل میکنند. این یک جهش مفهومی مشابه تغییر از رندرینگ مبتنی بر تصویر به میدانهای تابندگی عصبی (NeRF) [Mildenhall و همکاران ۲۰۲۰] است - بازنمایی را به فضای ذاتی سهبعدی صحنه منتقل میکند. رندرر مونتکارلو درونشبکهای دومین ضربه استادانه است که یک پیوند مستقیم مبتنی بر گرادیان بین تخمین نورپردازی و معیار نهایی موفقیت ایجاد میکند: واقعنمایی در ترکیب AR.
جریان منطقی: منطق معماری به طور بیعیب علی است. ۱) متنسازی سهبعدی: ورودی (LDR + عمق) در یک حجم ویژگی سهبعدی ادغام میشود. ۲) بازسازی نورپردازی حجمی: رمزگشا یک SGLV - یک مدل نورپردازی آگاه از فضا - را خروجی میدهد. ۳) فیزیک مشتقپذیر: رهگیری پرتو حجمی این مدل را برای هر نقطه دیدی پرس و جو میکند و با ساختار، سازگاری فضایی را تضمین میکند. ۴) تصفیه ظاهر و بهینهسازی مستقیم: یک شبکه دو بعدی جزئیات فرکانس بالا را اضافه میکند و لایه مونتکارلو مستقیماً برای کیفیت رندر نهایی بهینهسازی میکند. ۵) یکپارچهسازی زمانی: برای ویدیو، RNNها به عنوان یک حافظه عمل میکنند، SGLV را در طول زمان بهبود بخشیده و خروجی را برای ملایمت فیلتر پایینگذر میکنند. هر مرحله یک ضعف خاص از کارهای قبلی را برطرف میکند.
7. نقاط قوت، ضعفها و بینشهای عملی
نقاط قوت:
- بازنمایی بنیادی: SGLV یک بازنمایی ظریف و قدرتمند است که احتمالاً بر کارهای آینده فراتر از برآورد نورپردازی تأثیر خواهد گذاشت.
- بهینهسازی سرتاسری برای وظیفه: رندرر درونشبکهای یک مثال درخشان از طراحی زیان خاص وظیفه است که فراتر از زیانهای جایگزین (مانند L2 روی نقشههای محیطی) حرکت کرده و برای هدف واقعی بهینهسازی میکند.
- راهحل جامع: این چارچوب هم مشکلات تصویر تکی و هم ویدیو را در یک چارچوب یکپارچه مورد توجه قرار میدهد و سازگاری فضایی و زمانی را به طور همزمان برطرف میکند - ترکیبی نادر.
- مشارکت منابع: مجموعه داده بهبودیافته OpenRooms یک دارایی عمده برای جامعه تحقیقاتی است.
ضعفها و سؤالات حیاتی:
- وابستگی به عمق: این روش نیاز به یک نقشه عمق دارد. در حالی که حسگرهای عمق رایج هستند، عملکرد روی ورودیهای RGB تکچشمی نامشخص است. این کاربردپذیری را برای رسانههای قدیمی یا دستگاههای بدون حسگر عمق محدود میکند.
- هزینه محاسباتی: آموزش شامل رهگیری مسیر است. استنتاج نیاز به رهگیری پرتو حجمی دارد. این هنوز یک راهحل سبک موبایلی نیست. مقاله در مورد سرعت استنتاج یا فشردهسازی مدل سکوت کرده است.
- تعمیم به دادههای "در دنیای واقعی": مدل روی یک مجموعه داده مصنوعی و رهگیری مسیر (OpenRooms) آموزش دیده است. عملکرد آن روی عکسهای موبایلی واقعی، پرنویز و با نوردهی ضعیف - که اغلب مفروضات فیزیکی رهگیری مسیر را نقض میکنند - همچنان سؤال میلیارد دلاری برای استقرار AR باقی میماند.
- ابهام مواد: مانند همه وظایف رندرینگ معکوس، برآورد نورپردازی با برآورد مواد سطح درهم تنیده است. چارچوب هندسه شناخته شده یا به طور تقریبی تخمین زده شده را فرض میکند اما به طور صریح برای مواد حل نمیکند که ممکن است دقت را در صحنههای پیچیده و غیرلامبرتی محدود کند.
بینشهای عملی:
- برای محققان: پارادایم SGLV + رهگیری حجمی نکته کلیدی است. کاربرد آن را در وظایف مرتبط مانند ترکیب دید یا برآورد مواد بررسی کنید. تکنیکهای خودنظارتی یا انطباق در زمان آزمایش را برای پل زدن شکاف شبیهسازی به واقعیت برای دادههای موبایلی دنیای واقعی بررسی کنید.
- برای مهندسان/تیمهای محصول: این را به عنوان یک مرجع استاندارد طلایی برای AR با وفاداری بالا در نظر بگیرید. برای یکپارچهسازی محصول در کوتاهمدت، بر تقطیر این مدل (به عنوان مثال، از طریق تقطیر دانش [Hinton و همکاران ۲۰۱۵]) به یک نسخه مناسب موبایل که بتواند در زمان واقعی اجرا شود، تمرکز کنید، شاید با تقریب SGLV با یک ساختار داده کارآمدتر.
- برای استراتژیستهای داده: ارزش دادههای مصنوعی با کیفیت بالا اثبات شده است. در تولید مجموعه دادههای مصنوعی متنوعتر و از نظر فیزیکی دقیقتر که طیف وسیعتری از پدیدههای نورپردازی (مانند کاستیکهای پیچیده، محیطهای مشارکتکننده) را ثبت میکنند، سرمایهگذاری کنید.
8. چشمانداز کاربردی و جهتهای آینده
کاربردهای فوری:
- خلق محتوای AR سطح بالا: ابزارهای حرفهای برای فیلم، معماری و طراحی داخلی که در آن قرار دادن شیء مجازی واقعنما حیاتی است.
- حضور از راه دور و کنفرانس غوطهورکننده: نورپردازی صورت کاربر به طور سازگار با یک محیط دور برای تماسهای ویدیویی واقعنما.
- تجارت الکترونیک و خردهفروشی: امکان تجسم محصولات (مبلمان، دکور، لوازم خانگی) توسط مشتریان در خانه خودشان تحت شرایط نورپردازی دقیق.
جهتهای تحقیقاتی آینده:
- رندرینگ معکوس یکپارچه: گسترش چارچوب برای تخمین مشترک نورپردازی، مواد و هندسه از ورودیهای پراکنده، حرکت به سمت یک خط لوله کامل درک صحنه.
- کارایی و استقرار روی دستگاه: تحقیق در مورد فشردهسازی مدل، تکنیکهای رندرینگ عصبی کارآمد و معماریهای آگاه از سختافزار برای آوردن این سطح کیفیت به AR موبایل در زمان واقعی.
- مدیریت نورپردازی پویا: کار فعلی بر صحنههای ایستا تمرکز دارد. یک مرز اصلی، تخمین و پیشبینی تغییرات نورپردازی پویا است (مانند روشن/خاموش کردن چراغها، منابع نور متحرک، تغییر نور خورشید).
- یکپارچهسازی با بازنماییهای عصبی صحنه: ترکیب مفهوم SGLV با بازنماییهای ضمنی مانند NeRF یا پاشش گاوسی سهبعدی [Kerbl و همکاران ۲۰۲۳] برای ایجاد یک مدل عصبی صحنه کاملاً مشتقپذیر و قابل ویرایش.
9. مراجع
- Zhengqin Li, Li Yu, Mikhail Okunev, Manmohan Chandraker, Zhao Dong. "Spatiotemporally Consistent HDR Indoor Lighting Estimation." ACM Trans. Graph. (Proc. SIGGRAPH), 2023.
- Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." ECCV, 2020.
- Geoffrey Hinton, Oriol Vinyals, Jeff Dean. "Distilling the Knowledge in a Neural Network." arXiv:1503.02531, 2015.
- Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM Trans. Graph., 2023.
- Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV, 2017. (CycleGAN - برای مفاهیم انطباق دامنه مرتبط با شبیهسازی به واقعیت ارجاع داده شده است).
- OpenRooms Dataset. https://openrooms.github.io/