تقدير الإضاءة الداخلية عالية المدى الديناميكي مع الاتساق المكاني والزماني: إطار عمل للتعلم العميق من أجل الواقع المعزز الفوتورئالي

1. المقدمة

يُعد تقدير الإضاءة عالية الجودة والمتسقة حجر الزاوية لتطبيقات الواقع المعزز (AR) الفوتورئالية مثل تحسين المشاهد والحضور عن بُعد. تتناول الورقة البحثية "تقدير الإضاءة الداخلية عالية المدى الديناميكي مع الاتساق المكاني والزماني" التحدي الكبير المتمثل في التنبؤ بالإضاءة من مدخلات متناثرة وغير مكتملة نموذجية للأجهزة المحمولة - غالبًا مجرد صورة واحدة ذات مدى ديناميكي منخفض (LDR) تغطي حوالي 6% من المشهد البانورامي. تكمن المشكلة الأساسية في تخمين معلومات المدى الديناميكي العالي (HDR) المفقودة وأجزاء المشهد غير المرئية (مثل مصادر الضوء خارج الإطار) مع ضمان أن تكون التنبؤات متسقة عبر المواقع المكانية المختلفة في الصورة وعبر الزمن في تسلسل الفيديو. يقترح هذا العمل أول إطار عمل لتحقيق هذا الاتساق المزدوج، مما يمكّن من تصيير واقعي للأجسام الافتراضية ذات المواد المعقدة مثل المرايا والأسطح اللامعة.

2. المنهجية

إطار العمل المقترح هو نظام تعلم عميق متعدد المكونات مستوحى من الفيزياء، مصمم للتنبؤ بالإضاءة من صورة LDR (وخريطة العمق اختياريًا) أو تسلسل فيديو LDR.

2.1. حجم الإضاءة الغوسي الكروي (SGLV)

التمثيل الأساسي هو حجم ثلاثي الأبعاد حيث يخزن كل فوكسل معلمات لمجموعة من الدوال الغوسية الكروية (SGs)، وهي تقريب فعال للإضاءة المعقدة. تُعرّف الدالة الغوسية الكروية على النحو التالي: $G(\mathbf{v}; \mathbf{\mu}, \lambda, a) = a \cdot e^{\lambda(\mathbf{\mu} \cdot \mathbf{v} - 1)}$، حيث $\mathbf{\mu}$ هو محور الفص، $\lambda$ هو حدة الفص، و $a$ هو سعة الفص. يمثل SGLV بشكل مكثف مجال الإضاءة عبر الفضاء ثلاثي الأبعاد للمشهد.

2.2. بنية المُشفر-فك التشفير ثلاثي الأبعاد

تأخذ شبكة تلافيفية ثلاثية الأبعاد مخصصة صورة LDR المدخلة (وخريطة العمق، إذا كانت متاحة) وتبني SGLV. يستخرج المُشفر الميزات متعددة المقاييس، والتي يستخدمها فك التشفير للرفع التدريجي للدقة والتنبؤ بمعلمات SG (المحور، الحدة، السعة) لكل فوكسل في الحجم.

2.3. تتبع الأشعة الحجمي للاتساق المكاني

للتنبؤ بالإضاءة في أي موضع صورة اعتباطي (مثل مكان وضع جسم افتراضي)، يقوم إطار العمل بإجراء تتبع أشعة حجمي عبر SGLV. بالنسبة لنقطة ثلاثية الأبعاد معينة واتجاه نظر، يقوم بأخذ عينات من SGLV على طول الشعاع وتجميع معلمات SG. يضمن ذلك أن تكون تنبؤات الإضاءة قائمة على أسس فيزيائية وتتغير بسلاسة واتساق عبر المواقع المكانية، مع احترام هندسة المشهد.

2.4. شبكة المزج الهجينة لخرائط البيئة

يتم فك تشفير معلمات SG التي تم تتبع أشعتها إلى خريطة بيئة HDR مفصلة. تجمع شبكة مزج هجينة بين تنبؤ تقريبي متسق عالميًا من SGLV وتفاصيل عالية التردد مُتعلمة لإنتاج خريطة بيئة نهائية تتضمن انعكاسات دقيقة ومصادر ضوء غير مرئية.

2.5. طبقة التصيير مونت كارلو داخل الشبكة

تم دمج طبقة تصيير مونت كارلو قابلة للاشتقاق في خط أنابيب التدريب. تقوم بتصيير أجسام افتراضية بالإضاءة المتوقعة ومقارنة النتيجة بتصييرات الحقيقة الأرضية. يوفر خسارة القياس الضوئي من البداية إلى النهاية تحسينًا مباشرًا للهدف النهائي - إدراج الأجسام الفوتورئالي - ويقدم إشارة إشرافية قوية، مشابهة في روحها لخسائر الخصومة واتساق الدورة التي دفعت نماذج الترجمة من صورة إلى صورة مثل CycleGAN [Zhu et al., 2017].

2.6. الشبكات العصبية المتكررة للاتساق الزماني

عندما يكون المدخل عبارة عن تسلسل فيديو، يتم استخدام وحدة شبكة عصبية متكررة (RNN). تحتفظ بحالة خفية تجمع المعلومات من الإطارات السابقة. يسمح ذلك لإطار العمل بتحسين تقدير إضاءته تدريجيًا مع مراقبة المزيد من المشهد بمرور الوقت، بينما تضمن ذاكرة RNN أن التحسين يكون سلسًا ومتسقًا زمانيًا، مما يتجنب الوميض أو القفزات المفاجئة في الإضاءة المتوقعة.

3. مجموعة بيانات OpenRooms المُحسّنة

لتدريب نموذج جائع للبيانات بهذا الحجم، قام المؤلفون بتعزيز مجموعة البيانات العامة OpenRooms بشكل كبير. تتضمن النسخة المُحسّنة ما يقرب من 360,000 خريطة بيئة HDR بدقة أعلى بكثير وحوالي 38,000 تسلسل فيديو، جميعها مُصّورة باستخدام تتبع المسار المُسرّع بوحدة معالجة الرسومات لتحقيق الدقة الفيزيائية. كانت مجموعة البيانات التركيبية واسعة النطاق وعالية الجودة هذه حاسمة لنجاح النموذج.

إحصائيات مجموعة البيانات

خرائط البيئة HDR: ~360,000
تسلسلات الفيديو: ~38,000
طريقة التصيير: تتبع المسار القائم على وحدة معالجة الرسومات
الاستخدام الأساسي: تدريب وتقييم نماذج تقدير الإضاءة الداخلية

4. التجارب والنتائج

4.1. التقييم الكمي

تم تقييم إطار العمل مقارنة بأحدث طرق تقدير الإضاءة القائمة على الصورة الواحدة والفيديو باستخدام مقاييس قياسية مثل متوسط الخطأ التربيعي (MSE) ومؤشر التشابه الهيكلي (SSIM) على خرائط البيئة HDR، بالإضافة إلى مقاييس إدراكية على إدراج الأجسام المُصّورة. تفوقت الطريقة المقترحة باستمرار على جميع الأساليب الأساسية في التنبؤ بالإضاءة الدقيقة، مكانيًا وزمانيًا.

4.2. التقييم النوعي والنتائج المرئية

كما هو موضح في الشكل 1 من الورقة البحثية، تنجح الطريقة في استعادة مصادر الضوء المرئية وغير المرئية والانعكاسات التفصيلية من الأسطح المرئية. وهذا يمكّن من إدراج واقعي للغاية للأجسام الافتراضية ذات المواد الصعبة. بالنسبة لمدخلات الفيديو، تظهر النتائج تقدمًا سلسًا واستقرارًا بمرور الوقت، دون أي وميض.

وصف الرسم البياني/الشكل (بناءً على الشكل 1 و 2): يقدم الشكل 1 ملخصًا مرئيًا مقنعًا، يقارن إدراج الأجسام باستخدام الإضاءة من طرق مختلفة. تظهر نتائج المؤلفين إبرازات لامعة صحيحة وظلال ناعمة ونزيف لوني يتطابق مع المشهد الحقيقي، على عكس المنافسين الذين يظهر إدراج أجسامهم مسطحًا أو ملونًا بشكل غير صحيح أو يفتقر إلى ظلال متماسكة. يوضح الشكل 2 بنية إطار العمل الشاملة، ويظهر التدفق من صورة/عمق المدخل إلى SGLV، مرورًا بتتبع الأشعة وشبكة المزج، إلى خريطة البيئة HDR النهائية والجسم المُصّور.

4.3. دراسات الإقصاء

أكدت دراسات الإقصاء أهمية كل مكون: أدى إزالة SGLV وتتبع الأشعة الحجمي إلى الإضرار بالاتساق المكاني؛ أدت إزالة المُصيّر داخل الشبكة إلى تقليل الفوتورئالية للإدراجات؛ وأدى تعطيل RNN إلى تنبؤات غير متسقة زمانيًا ومُومضة في مقاطع الفيديو.

5. التحليل التقني والرؤى الأساسية

الرؤية الأساسية

هذه الورقة البحثية ليست مجرد تحسين تدريجي آخر في تقدير الإضاءة؛ إنها تحول نموذجي نحو معالجة الإضاءة كـ مجال مكاني-زماني بدلاً من بانوراما ثابتة مستقلة عن المنظر. يحدد المؤلفون بشكل صحيح أنه لكي يشعر الواقع المعزز بأنه "حقيقي"، يجب أن تتفاعل الأجسام الافتراضية مع الضوء بشكل متسق مع تحرك المستخدم أو الجسم. رؤيتهم الأساسية هي الاستفادة من تمثيل الإضاءة الحجمي ثلاثي الأبعاد (SGLV) كبنية البيانات الوسيطة المركزية. هذه هي الضربة الماهرة - فهي تعبر الفجوة بين مجال الصورة ثنائية الأبعاد والعالم الفيزيائي ثلاثي الأبعاد، مما يمكن من التفكير المكاني عبر تتبع الأشعة والتسهيل الزماني عبر نمذجة التسلسل. إنها تتجاوز حدود الطرق التي تراجع مباشرة خريطة بيئة من شبكة CNN ثنائية الأبعاد، والتي تعاني بطبيعتها من الاتساق المكاني.

التدفق المنطقي

المنطق المعماري أنيق ويتبع خط أنابيب محاكاة فيزيائية واضح، ولهذا يعمل بشكل جيد: مدخل ثنائي الأبعاد -> فهم المشهد ثلاثي الأبعاد (SGLV) -> استعلام فيزيائي (تتبع الأشعة) -> مخرج ثنائي الأبعاد (خريطة البيئة/التصيير). يبني المُشفر-فك التشفير ثلاثي الأبعاد نموذجًا ضمنيًا لتوزيع الإضاءة في المشهد. يعمل عامل تتبع الأشعة الحجمي كآلية استعلام قابلة للاشتقاق واعية بالهندسة. تضيف الشبكة الهجينة التفاصيل عالية التردد الضرورية المفقودة في التجزئة الحجمية. أخيرًا، يُغلق مُصيّر مونت كارلو داخل الشبكة الحلقة، محاذيًا هدف التعلم مع المهمة الإدراكية النهائية. بالنسبة للفيديو، يقوم RNN ببساطة بتحديث التمثيل الخفي ثلاثي الأبعاد بمرور الوقت، مما يجعل الاتساق الزماني نتيجة طبيعية.

نقاط القوة والضعف

نقاط القوة: إنجاز الاتساق المزدوج هو علامة فارقة. يمنح استخدام التمثيل القائم على الفيزياء (SGLV+تتبع الأشعة) تحيزات استقرائية قوية، مما يؤدي إلى تعميم أفضل من النهج القائمة على البيانات فقط. مجموعة بيانات OpenRooms المُحسّنة هي مساهمة كبيرة للمجتمع. دمج خسارة التصيير ذكي، يشبه التدريب "الواعي بالمهمة" الموجود في نماذج الرؤية الحديثة.

نقاط الضعف والأسئلة: الفيل في الغرفة هو التكلفة الحسابية. بناء واستعلام حجم ثلاثي الأبعاد أمر ثقيل. بينما هو ممكن للبحث، يبقى الأداء في الوقت الفعلي على أجهزة الواقع المعزز المحمولة عقبة كبيرة. الاعتماد على البيانات التركيبية (OpenRooms) هو سيف ذو حدين؛ بينما توفر حقيقة أرضية مثالية، فإن فجوة المحاكاة إلى الواقع للداخلية الحقيقية المعقدة والفوضوية غير مثبتة. تفترض الطريقة أيضًا توفر خريطة عمق، مما يضيف اعتمادًا على مستشعر آخر أو خوارزمية تقدير. كيف يؤدي مع عمق مشوش أو مفقود؟

رؤى قابلة للتنفيذ

1. للباحثين: مفهوم SGLV ناضج للاستكشاف. هل يمكن جعله أكثر كفاءة بتمثيلات متناثرة أو هرمية؟ هل يمكن تكييف هذا الإطار لتقدير الإضاءة الخارجية؟ 2. للمهندسين/فرق المنتج: التطبيق الفوري هو في إنشاء محتوى واقع معزز عالي الدقة والتصور الاحترافي. للواقع المعزز المحمول للمستهلكين، فكر في نظام ذو مستويين: مقدر خفيف وسريع للتتبع في الوقت الفعلي، وهذه الطريقة كخدمة خلفية لتوليد تأثيرات فوتورئالية متميزة عندما يتوقف المستخدم. 3. استراتيجية مجموعة البيانات: يؤكد النجاح على الحاجة إلى بيانات موسومة واسعة النطاق وعالية الجودة في رؤية الرسومات. الاستثمار في أدوات لتوليد بيانات تركيبية فعالة (اتجاه تدعمه NVIDIA's Omniverse وغيرها) أمر حاسم لتقدم المجال. 4. التصميم المشترك للأجهزة: يدفع هذا العمل حدود ما هو مطلوب للواقع المعزز المقنع. إنها إشارة واضحة لصانعي الرقائق (Apple, Qualcomm) بأن قدرات التصيير العصبي والاستدلال ثلاثي الأبعاد على الجهاز ليست رفاهية بل ضرورة لجيل تجارب الواقع المعزز القادم.

في الختام، تحدد هذه الورقة البحثية حالة فنية جديدة من خلال معالجة تحديات الاتساق الأساسية بدقة. إنها خطوة كبيرة من إضاءة "جيدة جدًا" إلى إضاءة يمكنها حقًا خداع العين في سيناريوهات الواقع المعزز الديناميكية. التحديات المتبقية هي في الغالب هندسية: الكفاءة، والقوة تجاه البيانات الواقعية، والدمج السلس في خط أنابيب الجهاز.

6. أمثلة التطبيق وإطار العمل

حالة مثال: وضع أثاث افتراضي في الواقع المعزز

تستخدم تطبيق تصميم داخلي هذا الإطار. يشير المستخدم بجهازه اللوحي إلى زاوية غرفة معيشة.

المدخل: يلتقط التطبيق دفق فيديو LDR ويقدر العمق باستخدام مستشعرات LiDAR/الجهاز.
المعالجة: تعالج شبكة الإطار الإطار الأول، وتبني SGLV أولي وتتنبأ ببيئة إضاءة HDR لمركز الشاشة.
التفاعل: يختار المستخدم أريكة افتراضية لوضعها في الزاوية. يستخدم التطبيق تتبع الأشعة الحجمي لاستعلام SGLV في الموقع ثلاثي الأبعاد للأريكة، والحصول على تقدير إضاءة مكاني صحيح لتلك البقعة المحددة (والذي يأخذ في الاعتبار نافذة قريبة غير مرئية مباشرة في الإطار الأولي).
التصيير: يتم تصيير الأريكة بالإضاءة المستفسر عنها باستخدام مُصيّر مونت كارلو، مما يظهر ظلالًا ناعمة دقيقة من النافذة، وإبرازات لامعة على الأجزاء الجلدية، ونزيف لوني من السجادة القريبة.
التحسين: بينما يحرك المستخدم الجهاز اللوحي حول الغرفة (تسلسل فيديو)، يقوم RNN بتحديث SGLV، وتحسين نموذج الإضاءة. يتم تحديث مظهر الأريكة بسلاسة واتساق، مع الحفاظ على تفاعل إضاءة صحيح من جميع وجهات النظر الجديدة دون وميض.

يوضح هذا المثال الفوائد الأساسية: الاتساق المكاني (إضاءة صحيحة في موقع الأريكة)، الاتساق الزماني (تحديثات سلسة)، والفوتورئالية (تصيير مواد معقدة).

7. التطبيقات المستقبلية والاتجاهات

الجيل القادم من الحضور عن بُعد في الواقع المعزز/الافتراضي: تمكين الصور الرمزية الواقعية أو المشاركين عن بُعد من الإضاءة بشكل متسق مع البيئة المحلية في الاتصال في الوقت الفعلي، مما يحسن الانغماس بشكل كبير.
ما بعد الإنتاج للأفلام والألعاب: السماح لفناني المؤثرات البصرية بتقدير وتكرار إضاءة موقع التصوير بسرعة لدمج سلس لعناصر CGI في لقطات الحركة الحية، حتى من لقطات مرجعية محدودة.
التصور المعماري والعقارات: إنشاء جولات تفاعلية حيث يتم تحديث الإضاءة على الأثاث الافتراضي بشكل فوتورئالي بينما يستكشف العميل نموذجًا ثلاثي الأبعاد لمساحة غير مكتملة.
الروبوتات والذكاء الاصطناعي المتجسد: تزويد الروبوتات بفهم أغنى لإضاءة المشهد، مما يساعد في تحديد المواد والملاحة وتخطيط التفاعل.
اتجاهات البحث المستقبلية: 1) الكفاءة: استكشاف تقطير المعرفة، ضغط عصبي لـ SGLV، أو مسرعات أجهزة متخصصة. 2) القوة: التدريب على مجموعات بيانات تركيبية-واقعية هجينة أو استخدام تقنيات ذاتية الإشراف لعبور فجوة المحاكاة إلى الواقع. 3) التعميم: توسيع الإطار للإضاءة الديناميكية (مثل تشغيل/إطفاء الأضواء، مصادر ضوء متحركة) والبيئات الخارجية. 4) نماذج موحدة: تقدير مشترك للإضاءة والهندسة وخصائص المواد من الفيديو بطريقة من البداية إلى النهاية.

8. المراجع

Li, Z., Yu, L., Okunev, M., Chandraker, M., & Dong, Z. (2023). Spatiotemporally Consistent HDR Indoor Lighting Estimation. ACM Transactions on Graphics (TOG).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
LeGendre, C., Ma, W., Fyffe, G., Flynn, J., Charbonnel, L., Busch, J., & Debevec, P. (2019). DeepLight: Learning Illumination for Unconstrained Mobile Mixed Reality. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
OpenRooms Dataset. (n.d.). An open dataset for indoor scene understanding. Retrieved from the project's official website or academic repository.
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. Communications of the ACM. (مذكور للاتصال المفاهيمي بتمثيل المشهد ثلاثي الأبعاد).