LIMO: ভার্চুয়াল প্রোডাকশনের জন্য স্পেসিওটেম্পোরাল এইচডিআর লাইটিং এস্টিমেশন

1. ভূমিকা ও সংক্ষিপ্ত বিবরণ

ছবি ও ভিডিওতে বাস্তবসম্মত ভার্চুয়াল অবজেক্ট সংযোজন নির্ভর করে সঠিক আলোক অনুমানের উপর। "লাইটিং ইন মোশন: স্পেসিওটেম্পোরাল এইচডিআর লাইটিং এস্টিমেশন" শীর্ষক গবেষণাপত্রটি LIMO উপস্থাপন করেছে, একটি অভিনব ডিফিউশন-ভিত্তিক পদ্ধতি যা মনোকুলার ভিডিও সিকোয়েন্স থেকে হাই-ডাইনামিক-রেঞ্জ (এইচডিআর) আলোকসজ্জা অনুমান করার জন্য তৈরি। পূর্ববর্তী পদ্ধতিগুলি যেগুলো প্রায়শই সমস্যার অংশবিশেষ সমাধান করে—যেমন স্থির গ্লোবাল লাইটিং বা নির্দিষ্ট পরিবেশে সীমাবদ্ধ স্পেসিয়ালি-ভ্যারিয়িং লাইটিং—তার বিপরীতে LIMO পাঁচটি গুরুত্বপূর্ণ সক্ষমতা একত্রিত করার লক্ষ্য রাখে: স্পেসিয়াল গ্রাউন্ডিং, টেম্পোরাল অভিযোজন, সঠিক এইচডিআর লুমিন্যান্স পূর্বাভাস, ইনডোর/আউটডোর দৃশ্যের মধ্যে রোবাস্টনেস, এবং বিশ্বাসযোগ্য হাই-ফ্রিকোয়েন্সি লাইটিং বিস্তারিত তৈরি করা।

মূল উদ্ভাবনটি হলো একটি ডিফিউশন মডেলের ব্যবহার, যা একটি বৃহৎ-পরিসরের কাস্টম ডেটাসেটে ফাইন-টিউন করা হয়েছে, যাতে সময়ের সাথে সাথে একটি দৃশ্যের যেকোনো প্রদত্ত ৩ডি অবস্থানের জন্য একাধিক এক্সপোজারে মিরর ও ডিফিউজ স্ফিয়ার লাইট প্রোবের পূর্বাভাস দেওয়া যায়। এরপর ডিফারেনশিয়েবল রেন্ডারিং ব্যবহার করে এই পূর্বাভাসগুলোকে একটি একক এইচডিআর এনভায়রনমেন্ট ম্যাপে একীভূত করা হয়।

2. মূল পদ্ধতিবিদ্যা

2.1 সমস্যার সংজ্ঞা ও মূল সক্ষমতাসমূহ

লেখকরা একটি সাধারণ-উদ্দেশ্যের আলোক অনুমান কৌশলের জন্য প্রয়োজনীয়তার একটি ব্যাপক সেট সংজ্ঞায়িত করেছেন:

স্পেসিয়াল গ্রাউন্ডিং: একটি নির্দিষ্ট ৩ডি অবস্থানের জন্য আলোকসজ্জার পূর্বাভাস দিতে হবে, স্থানীয় প্রতিবন্ধকতা এবং আলোর উৎসের নৈকট্য বিবেচনা করে।
টেম্পোরাল সামঞ্জস্য ও পরিবর্তনশীলতা: মডেলটিকে ক্যামেরা নড়াচড়া, বস্তুর চলাচল এবং গতিশীল আলোকসজ্জার কারণে পরিবর্তনগুলি সামলাতে হবে।
সম্পূর্ণ এইচডিআর নির্ভুলতা: পূর্বাভাসগুলিকে লুমিন্যান্সের বহু ক্রম পর্যন্ত বিস্তৃত হতে হবে, ম্লান পরোক্ষ আলো থেকে শুরু করে উজ্জ্বল প্রত্যক্ষ উৎস পর্যন্ত।
ইনডোর/আউটডোর রোবাস্টনেস: নিয়ার-ফিল্ড ইনডোর লাইটিং এবং দূরবর্তী পরিবেশগত (আউটডোর) আলো উভয়ের জন্যই কাজ করতে হবে।
বিশ্বাসযোগ্য বিস্তারিত: সঠিক লো-ফ্রিকোয়েন্সি দিকনির্দেশক আলোকসজ্জা বজায় রেখে রিফ্লেকশনের জন্য বাস্তবসম্মত হাই-ফ্রিকোয়েন্সি বিস্তারিত তৈরি করা উচিত।

2.2 LIMO ফ্রেমওয়ার্ক

LIMO মনোকুলার ভিডিও ফ্রেমের একটি ক্রমের উপর কাজ করে। প্রতিটি টার্গেট ফ্রেম এবং ব্যবহারকারী-নির্দিষ্ট একটি ৩ডি অবস্থানের জন্য:

গভীরতা অনুমান: একটি অফ-দ্য-শেলফ মনোকুলার ডেপথ প্রেডিক্টর (যেমন [5]) পিক্সেল-প্রতি গভীরতা সরবরাহ করে।
জ্যামিতিক কন্ডিশনিং: ডেপথ ম্যাপ এবং টার্গেট ৩ডি অবস্থান ব্যবহার করে নতুন জ্যামিতিক ম্যাপ গণনা করা হয় যা টার্গেট পয়েন্টের সাপেক্ষে দৃশ্যের কাঠামো এনকোড করে।
ডিফিউশন-ভিত্তিক পূর্বাভাস: এই কাজের জন্য ফাইন-টিউন করা একটি প্রি-ট্রেন্ড ডিফিউশন মডেল, RGB ইমেজ এবং জ্যামিতিক ম্যাপগুলোকে কন্ডিশনিং হিসেবে গ্রহণ করে। এটি একাধিক এক্সপোজার লেভেলে একটি মিরর স্ফিয়ার (হাই-ফ্রিকোয়েন্সি বিস্তারিত এবং প্রত্যক্ষ আলোর উৎস ধারণ করে) এবং একটি ডিফিউজ স্ফিয়ার (লো-ফ্রিকোয়েন্সি, পরোক্ষ আলোকসজ্জা ধারণ করে) উভয়ের জন্য পূর্বাভাস আউটপুট দেয়।
এইচডিআর ফিউশন: ডিফারেনশিয়েবল রেন্ডারিং লস ব্যবহার করে একাধিক এক্সপোজারের পূর্বাভাসগুলিকে একটি একক, সুসংগত এইচডিআর এনভায়রনমেন্ট ম্যাপে একীভূত করা হয় যা ভৌত সামঞ্জস্য নিশ্চিত করে।

2.3 জ্যামিতিক ম্যাপের মাধ্যমে স্পেসিয়াল কন্ডিশনিং

একটি মূল অবদান হলো স্পেসিয়াল কন্ডিশনিংয়ের জন্য শুধুমাত্র গভীরতা ব্যবহারের বাইরে যাওয়া। লেখকরা যুক্তি দেন যে সঠিক স্পেসিয়াল গ্রাউন্ডিংয়ের জন্য গভীরতা অপর্যাপ্ত কারণ এতে টার্গেট পয়েন্টের সাপেক্ষে দৃশ্য জ্যামিতির আপেক্ষিক অবস্থান সম্পর্কে তথ্যের অভাব রয়েছে। তারা অতিরিক্ত জ্যামিতিক ম্যাপ চালু করেছে যা সম্ভবত দৃশ্যের পৃষ্ঠতল থেকে টার্গেট ৩ডি পয়েন্টের ভেক্টর বা দূরত্ব এনকোড করে, মডেলটিকে সম্ভাব্য প্রতিবন্ধক এবং নিকটবর্তী আলো-অবদানকারী পৃষ্ঠতল সম্পর্কে গুরুত্বপূর্ণ প্রসঙ্গ সরবরাহ করে।

3. প্রযুক্তিগত বাস্তবায়ন

3.1 ডিফিউশন মডেল ফাইন-টিউনিং

গবেষণাপত্রটি বৃহৎ-পরিসরের ডিফিউশন মডেলগুলিতে (স্টেবল ডিফিউশনের অনুরূপ) এমবেড করা শক্তিশালী প্রায়র নলেজের সুবিধা নেয়। মডেলটিকে ইনডোর ও আউটডোর দৃশ্যের একটি কাস্টম ডেটাসেটে ফাইন-টিউন করা হয়েছে যা গ্রাউন্ড-ট্রুথ স্পেসিওটেম্পোরাল লাইট প্রোবের সাথে যুক্ত। ডিফিউশন মডেল $\epsilon_\theta$-এর জন্য কন্ডিশনিং ইনপুট $C$ হলো RGB ইমেজ $I$, ডেপথ ম্যাপ $D$, এবং নতুন জ্যামিতিক ম্যাপ $G$-এর সংযোজন: $C = [I, D, G]$। প্রশিক্ষণের উদ্দেশ্য হলো স্ট্যান্ডার্ড ডিনয়েজিং স্কোর ম্যাচিং লস: $$L = \mathbb{E}_{t, \mathbf{x}_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t, C) \|^2 \right]$$ যেখানে $\mathbf{x}_0$ হলো টার্গেট লাইট প্রোব ইমেজ, $t$ হলো ডিফিউশন টাইমস্টেপ, এবং $\epsilon$ হলো নয়েজ।

3.2 এইচডিআর পুনর্গঠন পাইপলাইন

বিভিন্ন এক্সপোজারে (যেমন, লো, মিডিয়াম, হাই) স্ফিয়ারগুলির পূর্বাভাস দেওয়া একটি একক নেটওয়ার্ক আউটপুটে বাস্তব-বিশ্বের আলোকসজ্জার বিশাল ডাইনামিক রেঞ্জ উপস্থাপনের চ্যালেঞ্জ সমাধান করে। ফিউশন প্রক্রিয়াটি এই পূর্বাভাসগুলিকে সারিবদ্ধ করে। একটি ডিফারেনশিয়েবল রেন্ডারার ব্যবহার করে পূর্বাভাসিত এইচডিআর ম্যাপের অধীনে একটি পরিচিত বস্তুর রেন্ডার করা চেহারা এবং গ্রাউন্ড-ট্রুথ এইচডিআর ম্যাপের অধীনে এর চেহারার মধ্যে একটি পুনর্গঠন লস গণনা করা যেতে পারে, যা নিশ্চিত করে যে ফিউজড ম্যাপটি ভৌতভাবে বিশ্বাসযোগ্য।

3.3 ডেটাসেট ও প্রশিক্ষণ

লেখকরা ইনডোর ও আউটডোর দৃশ্যের একটি "বৃহৎ-পরিসরের কাস্টমাইজড ডেটাসেট" তৈরি করেছেন। এতে সম্ভবত একাধিক স্পেসিয়াল অবস্থানে সিঙ্ক্রোনাইজড এইচডিআর লাইট প্রোব পরিমাপ সহ ভিডিও সিকোয়েন্স ক্যাপচার বা সংশ্লেষণ জড়িত। এই ডেটাসেটের পরিসর ও বৈচিত্র্য বিভিন্ন আলোকসজ্জার অবস্থার মধ্যে মডেলের সাধারণীকরণের জন্য গুরুত্বপূর্ণ।

4. পরীক্ষামূলক ফলাফল ও মূল্যায়ন

4.1 পরিমাণগত মেট্রিক্স ও বেঞ্চমার্ক

গবেষণাপত্রটি স্পেসিয়াল কন্ট্রোল এবং পূর্বাভাস নির্ভুলতা উভয় ক্ষেত্রেই সর্বশেষ ফলাফল দাবি করে। পরিমাণগত মূল্যায়নে সম্ভবত অন্তর্ভুক্ত রয়েছে:

আলোকসজ্জা নির্ভুলতা: পূর্বাভাসিত এবং গ্রাউন্ড-ট্রুথ এইচডিআর এনভায়রনমেন্ট ম্যাপের মধ্যে গড় বর্গ ত্রুটি (MSE) বা লগ-MSE-এর মতো মেট্রিক্স।
পুনরায় আলোকসজ্জা নির্ভুলতা: পূর্বাভাসিত বনাম গ্রাউন্ড-ট্রুথ আলোকসজ্জার অধীনে পরিচিত বস্তু/BRDF রেন্ডার করার সময় ত্রুটি পরিমাপ করা (যেমন, রেন্ডার করা ছবিতে PSNR বা SSIM ব্যবহার করে)।
স্পেসিয়াল গ্রাউন্ডিং: একই দৃশ্যের মধ্যে বিভিন্ন ৩ডি অবস্থানে পূর্বাভাসের তুলনা করে সঠিক পরিবর্তন প্রদর্শন করা।

প্রতিবেদিত কর্মক্ষমতা হাইলাইটস

দাবি: স্পেসিয়াল কন্ট্রোল এবং পূর্বাভাস নির্ভুলতায় সর্বশেষ অবস্থান।

মূল সুবিধা: পাঁচটি মূল সক্ষমতা একত্রিত করে যেখানে পূর্ববর্তী কাজগুলি শুধুমাত্র উপসেট সমাধান করেছিল।

4.2 গুণগত বিশ্লেষণ ও ভিজ্যুয়াল তুলনা

PDF-এর চিত্র 1 LIMO-এর সক্ষমতা প্রদর্শন করে: 1) বিভিন্ন স্পেসিয়াল অবস্থানে সঠিক গ্রাউন্ডিং (অবস্থানের ভিত্তিতে বস্তুগুলি সঠিকভাবে ছায়াযুক্ত), 2) ফ্রেম জুড়ে টেম্পোরাল সামঞ্জস্য, এবং 3) মিলিত আলোকসজ্জা সহ একটি বাস্তব সেটে একটি লাইট-ডোম-ক্যাপচার অভিনেতাকে সন্নিবেশ করে ভার্চুয়াল প্রোডাকশনে সরাসরি প্রয়োগ। ভিজ্যুয়াল তুলনায় সম্ভবত দেখা যায় যে LIMO বেসলাইনগুলির তুলনায় আরও বাস্তবসম্মত হাই-ফ্রিকোয়েন্সি রিফ্লেকশন এবং আরও সঠিক ছায়ার দিক তৈরি করে।

4.3 অ্যাবলেশন স্টাডিজ

অ্যাবলেশন স্টাডিজ মূল নকশা পছন্দগুলিকে বৈধতা দেয়:

জ্যামিতিক ম্যাপ বনাম শুধুমাত্র গভীরতা: প্রস্তাবিত জ্যামিতিক কন্ডিশনিং দ্বারা অর্জিত উচ্চতর স্পেসিয়াল গ্রাউন্ডিং প্রদর্শন করে শুধুমাত্র গভীরতা ব্যবহারের তুলনায়।
মাল্টি-এক্সপোজার পূর্বাভাস: দেখায় যে একটি একক LDR ম্যাপের পূর্বাভাস দেওয়ার তুলনায় সঠিক এইচডিআর পুনর্গঠনের জন্য একাধিক এক্সপোজারে পূর্বাভাস দেওয়া প্রয়োজন।
ডিফিউশন প্রায়র: সম্ভবত ফাইন-টিউন করা ডিফিউশন মডেলটিকে স্ক্র্যাচ থেকে প্রশিক্ষিত একটি মডেলের সাথে তুলনা করে, বৃহৎ-পরিসরের প্রি-ট্রেন্ড প্রায়রগুলির সুবিধা নেওয়ার উপকারিতা তুলে ধরে।

5. বিশ্লেষণ ফ্রেমওয়ার্ক ও কেস স্টাডি

মূল অন্তর্দৃষ্টি: LIMO শুধুমাত্র একটি ক্রমবর্ধমান উন্নতি নয়; এটি আলোক অনুমানকে একটি জেনারেটিভ, স্পেসিয়ালি-সচেতন, এবং টেম্পোরালি-সমন্বিত পুনর্গঠন কাজ হিসেবে বিবেচনা করার দিকে একটি প্যারাডাইম শিফট। ডিফিউশন মডেলগুলির সুবিধা নিয়ে, এটি রিগ্রেশন-ভিত্তিক পদ্ধতিগুলির বাইরে চলে যায় যা প্রায়শই ঝাপসা, গড় আলোকসজ্জা তৈরি করে, বাস্তবতাকে বিক্রি করা জটিল, হাই-ফ্রিকোয়েন্সি "স্পার্কল" ক্যাপচার করে—ইমেজ-ভিত্তিক লাইটিং-এর উপর সেমিনাল কাজগুলিতে উল্লিখিত একটি চ্যালেঞ্জ।

যুক্তিগত প্রবাহ: যুক্তিটি আকর্ষণীয়: 1) সমস্যাটি মৌলিকভাবে আন্ডার-কনস্ট্রেইন্ড (অসীম আলোকসজ্জা সমাধান একটি ছবি ব্যাখ্যা করতে পারে)। 2) অতএব, শক্তিশালী প্রায়র ইনজেক্ট করুন (বিস্তৃত ইমেজ ডেটাতে প্রশিক্ষিত ডিফিউশন মডেল)। 3) কিন্তু একটি গ্লোবাল প্রায়র স্থানীয় গ্রাউন্ডিংয়ের জন্য যথেষ্ট নয়, তাই স্পষ্ট জ্যামিতিক কন্ডিশনিং যোগ করুন। 4) এইচডিআর একটি রেঞ্জ সমস্যা, তাই একটি মাল্টি-এক্সপোজার কৌশল দিয়ে এটি সমাধান করুন। মূল অস্পষ্টতাগুলির এই ধাপে ধাপে সমাধান পদ্ধতিগত এবং কার্যকর।

শক্তি ও ত্রুটি: শক্তি হলো এর সামগ্রিক উচ্চাকাঙ্ক্ষা এবং চিত্তাকর্ষক প্রযুক্তিগত একীকরণ। ডিফিউশন মডেলগুলির ব্যবহার একটি মাস্টারস্ট্রোক, ঠিক যেমন CycleGAN আনপেয়ার্ড ইমেজ ট্রান্সলেশনের জন্য অ্যাডভারসারিয়াল ট্রেনিংয়ের সুবিধা নিয়েছিল—এটি একটি জেনারেটিভ কাজের জন্য সঠিক টুল ব্যবহার করে। যাইহোক, ত্রুটিটি এর নির্বাচিত টুলের অন্তর্নিহিত: ডিফিউশন মডেলগুলি গণনাগতভাবে ভারী। AR-এর মতো রিয়েল-টাইম অ্যাপ্লিকেশনে ভিডিও-রেট প্রসেসিংয়ের জন্য ইনফারেন্স গতি এবং সম্পদের প্রয়োজনীয়তা একটি উল্লেখযোগ্য বাধা। গবেষণাপত্রের ২০২৫ তারিখটি ইঙ্গিত দেয় যে এটি একটি ভবিষ্যৎ-মুখী গবেষণা নিবন্ধ, এখনও একটি ইঞ্জিনিয়ার্ড পণ্য নয়।

কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য, স্পষ্ট টেকঅ্যাওয়ে হলো জেনারেটিভ ওয়ার্ল্ড মডেল (ডিফিউশন) এবং স্পষ্ট ৩ডি জ্যামিতিক যুক্তির সংমিশ্রণের শক্তি। জ্যামিতিক কন্ডিশনিং ম্যাপগুলি অন্যান্য ভিশন টাস্কের জন্য একটি ব্লুপ্রিন্ট যার জন্য স্পেসিয়াল বোঝার প্রয়োজন। VFX এবং ভার্চুয়াল প্রোডাকশনের অনুশীলনকারীদের জন্য, LIMO ভবিষ্যতের রূপরেখা দেয়: সম্পূর্ণ স্বয়ংক্রিয়, অন-সেট আলোক অনুমান যা শারীরিক লাইট প্রোবের গুণমানের সাথে মেলে। অবিলম্বে পদক্ষেপ হলো রিয়েল-টাইম কর্মক্ষমতা অর্জনের জন্য ডিস্টিলেশন বা বিশেষায়িত আর্কিটেকচারের উপর অনুসরণকারী কাজের জন্য নজর রাখা, সম্ভবত NVIDIA-এর গবেষণা থেকে দক্ষ ডিফিউশনের অগ্রগতির সুবিধা নিয়ে।

কেস স্টাডি - ভার্চুয়াল প্রোডাকশন ওয়ার্কফ্লো: একটি দৃশ্য বিবেচনা করুন যেখানে একজন পরিচালক একটি চলমান গাড়ির অভ্যন্তরের লাইভ-অ্যাকশন প্লেটে একটি CGI চরিত্র স্থাপন করতে চান। ঐতিহ্যগত পদ্ধতিগুলির জন্য ম্যানুয়ালি HDRI ম্যাপ আঁকা বা অযথা, স্থির অনুমান ব্যবহার করা প্রয়োজন। LIMO ফ্রেমওয়ার্ক ব্যবহার করে: 1) ভিডিও প্লেটটি ফ্রেম-বাই-ফ্রেম প্রসেস করা হয়। 2) প্রতিটি ফ্রেমের জন্য, ৩ডি সিটের অবস্থান সরবরাহ করা হয়। 3) LIMO সেই সিটের জন্য নির্দিষ্ট, টেম্পোরালি সামঞ্জস্যপূর্ণ এইচডিআর লাইটিং ম্যাপের একটি ক্রম তৈরি করে, জানালা দিয়ে পরিবর্তনশীল সূর্যালোক এবং ড্যাশবোর্ড থেকে রিফ্লেকশন ক্যাপচার করে। 4) CGI চরিত্রটি এই গতিশীল আলোকসজ্জার অধীনে রেন্ডার করা হয়, ম্যানুয়াল হস্তক্ষেপ ছাড়াই নিরবিচ্ছিন্ন একীকরণ অর্জন করে।

6. প্রয়োগের সম্ভাবনা ও ভবিষ্যৎ দিকনির্দেশনা

অবিলম্বে প্রয়োগ:

ভার্চুয়াল প্রোডাকশন ও VFX: চলচ্চিত্র ও টেলিভিশনে CGI উপাদানগুলির জন্য স্বয়ংক্রিয় আলোক ম্যাচিং, শারীরিক লাইট প্রোব এবং ম্যানুয়াল রোটোমেশনের উপর নির্ভরতা হ্রাস করে।
অগমেন্টেড রিয়েলিটি (AR): লাইভ ক্যামেরা ফিডের উপর ওভারলে করা ভার্চুয়াল অবজেক্টগুলির জন্য বাস্তবসম্মত শেডিং, নিমজ্জন বৃদ্ধি করে।
স্থাপত্য দৃশ্যায়ন ও নকশা: একটি ঘরের বিদ্যমান আলোকসজ্জার অধীনে নতুন আসবাবপত্র বা ফিক্সচার যেকোনো দৃষ্টিকোণ থেকে কেমন দেখাবে তা সিমুলেট করা।

ভবিষ্যত গবেষণা দিকনির্দেশনা:

দক্ষতা অপ্টিমাইজেশন: রিয়েল-টাইম AR অ্যাপ্লিকেশনের জন্য দ্রুত, ডিস্টিল্ড সংস্করণের মডেল তৈরি করা বা লেটেন্ট ডিফিউশন কৌশলের সুবিধা নেওয়া।
ইন্টারেক্টিভ কন্ট্রোল: ব্যবহারকারীদের দুর্বল সুপারভিশন প্রদানের অনুমতি দেওয়া (যেমন, "এখানে আলোর উৎস উজ্জ্বল") জেনারেশনকে নির্দেশিত করার জন্য।
ম্যাটেরিয়াল ও লাইটিং ডিকম্পোজিশন: আলোকসজ্জার পাশাপাশি দৃশ্য উপকরণ (আলবেডো, রাফনেস) যৌথভাবে অনুমান করার জন্য ফ্রেমওয়ার্কটি প্রসারিত করা, একটি ক্লাসিক ইনভার্স রেন্ডারিং সমস্যা।
নিউরাল রেডিয়েন্স ফিল্ডস (NeRFs) এর সাথে একীকরণ: ছবি থেকে পুনরায় আলোকসজ্জাযোগ্য ৩ডি দৃশ্য পুনর্গঠনের জন্য সঠিক আলোক অনুমান সরবরাহ করতে LIMO ব্যবহার করা।
অদেখা দৃশ্যে সাধারণীকরণ: চরম আলোকসজ্জার অবস্থার (যেমন, রাতের দৃশ্য, প্রত্যক্ষ লেজার আলো) এবং আরও জটিল জ্যামিতির মধ্যে রোবাস্টনেস আরও উন্নত করা।

7. তথ্যসূত্র

Bolduc, C., Philip, J., Ma, L., He, M., Debevec, P., & Lalonde, J. (2025). Lighting in Motion: Spatiotemporal HDR Lighting Estimation. arXiv preprint arXiv:2512.13597.
Debevec, P. (1998). Rendering synthetic objects into real scenes: Bridging traditional and image-based graphics with global illumination and high dynamic range photography. Proceedings of SIGGRAPH.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems.
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
Ranftl, R., Bochkovskiy, A., & Koltun, V. (2021). Vision Transformers for Dense Prediction. ICCV. (গভীরতা অনুমানের জন্য [5] হিসেবে উদ্ধৃত)।
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV.
Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. SIGGRAPH Asia.
Hold-Geoffroy, Y., Sunkavalli, K., Hadap, S., & Lalonde, J. (2017). Deep Outdoor Illumination Estimation. ICCV.