ভাষা নির্বাচন করুন

স্থানিক-কালিক সামঞ্জস্যপূর্ণ এইচডিআর অভ্যন্তরীণ আলোক অনুমান: ফটোরিয়ালিস্টিক এআরের জন্য একটি গভীর শিক্ষণ কাঠামো

একক এলডিআর ছবি বা ভিডিও ক্রম থেকে উচ্চ-মানের, সামঞ্জস্যপূর্ণ এইচডিআর অভ্যন্তরীণ আলোক অনুমান করার জন্য একটি গভীর শিক্ষণ কাঠামো, যা ফটোরিয়ালিস্টিক অগমেন্টেড রিয়ালিটি অ্যাপ্লিকেশন সক্ষম করে।
rgbcw.net | PDF Size: 5.8 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - স্থানিক-কালিক সামঞ্জস্যপূর্ণ এইচডিআর অভ্যন্তরীণ আলোক অনুমান: ফটোরিয়ালিস্টিক এআরের জন্য একটি গভীর শিক্ষণ কাঠামো

সূচিপত্র

1. ভূমিকা

মোবাইল ডিভাইসের ব্যাপক বিস্তার ফটোরিয়ালিস্টিক দৃশ্য উন্নয়ন ও টেলিপ্রেজেন্সের মতো উন্নত অগমেন্টেড রিয়ালিটি (এআর) অ্যাপ্লিকেশনের চাহিদা ত্বরান্বিত করেছে। এ ধরনের অ্যাপ্লিকেশনের একটি মৌলিক ভিত্তি হলো একক ছবি বা ভিডিও ক্রম থেকে উচ্চ-মানের, সামঞ্জস্যপূর্ণ আলোক অনুমান। অভ্যন্তরীণ পরিবেশে এই কাজটি বিশেষভাবে চ্যালেঞ্জিং, কারণ এখানে বিভিন্ন জ্যামিতি, উপাদান ও আলোর উৎসের জটিল মিথস্ক্রিয়া থাকে, যেখানে প্রায়শই দীর্ঘ-পরিসরের মিথস্ক্রিয়া ও প্রতিবন্ধকতা জড়িত।

ভোক্তা ডিভাইস থেকে প্রাপ্ত ইনপুট সাধারণত স্পার্স লো ডাইনামিক রেঞ্জ (এলডিআর) ছবি হয় যার দৃশ্যক্ষেত্র সীমিত (যেমন, একটি প্যানোরামিক দৃশ্যের মাত্র ~৬% ধারণ করে)। তাই মূল চ্যালেঞ্জ হলো অনুপস্থিত হাই ডাইনামিক রেঞ্জ (এইচডিআর) তথ্য কল্পনা করা এবং দৃশ্যের অদৃশ্য অংশ (যেমন ফ্রেমের বাইরের আলোর উৎস) অনুমান করে একটি সম্পূর্ণ, স্থানিকভাবে সামঞ্জস্যপূর্ণ আলোক মডেল তৈরি করা। তদুপরি, ভিডিও ইনপুটের জন্য, এআর ওভারলে-তে ঝলকানি বা বিচ্ছিন্ন রূপান্তর এড়াতে ভবিষ্যদ্বাণীগুলোকে কালিকভাবে স্থিতিশীল থাকতে হবে।

এই গবেষণাপত্রটি স্থানিক-কালিকভাবে সামঞ্জস্যপূর্ণ এইচডিআর অভ্যন্তরীণ আলোক অনুমান অর্জনের জন্য নকশাকৃত প্রথম কাঠামো উপস্থাপন করে। এটি একটি একক এলডিআর ছবি ও গভীরতা মানচিত্র থেকে যেকোনো ছবির অবস্থানে আলোক অনুমান করে, এবং যখন একটি ভিডিও ক্রম দেওয়া হয়, তখন এটি মসৃণ কালিক সঙ্গতি বজায় রেখে ভবিষ্যদ্বাণীগুলোকে ক্রমাগত পরিমার্জিত করে।

2. পদ্ধতিবিদ্যা

প্রস্তাবিত কাঠামোটি একটি বহু-উপাদানবিশিষ্ট, ভৌতভাবে অনুপ্রাণিত গভীর শিক্ষণ ব্যবস্থা।

2.1. গোলকীয় গাউসিয়ান আলোক আয়তন (এসজিএলভি)

মূল উপস্থাপনা হলো একটি গোলকীয় গাউসিয়ান আলোক আয়তন (এসজিএলভি)। পুরো দৃশ্যের জন্য একটি একক পরিবেশ মানচিত্র ভবিষ্যদ্বাণী করার পরিবর্তে, এই পদ্ধতিটি একটি ৩ডি আয়তন পুনর্গঠন করে যেখানে প্রতিটি ভক্সেল স্থানীয় আলোক বণ্টন উপস্থাপনকারী গোলকীয় গাউসিয়ান (এসজি)-এর একটি সেটের জন্য প্যারামিটার ধারণ করে। গোলকীয় গাউসিয়ান জটিল আলোকের জন্য একটি দক্ষ আনুমানিক, যা সংজ্ঞায়িত করা হয়: $G(\mathbf{v}; \mathbf{\mu}, \lambda, a) = a \cdot e^{\lambda(\mathbf{\mu} \cdot \mathbf{v} - 1)}$ যেখানে $\mathbf{\mu}$ হলো লোব অক্ষ, $\lambda$ হলো লোব তীক্ষ্ণতা, এবং $a$ হলো লোব বিস্তার। স্থানিক সামঞ্জস্য অর্জনের জন্য এই আয়তনিক উপস্থাপনা মূল বিষয়।

2.2. ৩ডি এনকোডার-ডিকোডার আর্কিটেকচার

একটি উপযোগী ৩ডি এনকোডার-ডিকোডার নেটওয়ার্ক ইনপুট এলডিআর ছবি ও এর সংশ্লিষ্ট গভীরতা মানচিত্র (একটি সাধারণ ৩ডি স্থানে সারিবদ্ধ) গ্রহণ করে এবং এসজিএলভি আউটপুট দেয়। এনকোডার বহুমাত্রিক বৈশিষ্ট্য আহরণ করে, অন্যদিকে ডিকোডার উচ্চ-রেজোলিউশন আয়তন পুনর্গঠনের জন্য আপস্যাম্পল করে।

2.3. স্থানিক সামঞ্জস্যের জন্য আয়তন রে ট্রেসিং

একটি নির্দিষ্ট দৃষ্টিকোণ (যেমন, একটি ভার্চুয়াল বস্তু সন্নিবেশের জন্য) এর জন্য পরিবেশ মানচিত্র ভবিষ্যদ্বাণী করতে, কাঠামোটি এসজিএলভি-র মাধ্যমে আয়তন রে ট্রেসিং সম্পাদন করে। লক্ষ্য অবস্থান থেকে রে নিক্ষেপ করা হয়, এবং প্রতিটি রে দিক বরাবর আলোক অবদানকে ছেদকৃত ভক্সেল থেকে এসজি প্যারামিটার নমুনায়ন ও মিশ্রিত করে সংহত করা হয়। এই ভৌত-ভিত্তিক প্রক্রিয়াটি নিশ্চিত করে যে দৃশ্যের বিভিন্ন অবস্থানে আলোক ভবিষ্যদ্বাণীগুলো জ্যামিতিকভাবে সামঞ্জস্যপূর্ণ।

2.4. পরিবেশ মানচিত্রের জন্য হাইব্রিড ব্লেন্ডিং নেটওয়ার্ক

রে ট্রেসিং থেকে প্রাপ্ত কাঁচা এসজি প্যারামিটার একটি হাইব্রিড ব্লেন্ডিং নেটওয়ার্কে প্রবেশ করানো হয়। এই নেটওয়ার্কটি মোটা আলোক অনুমানকে একটি বিস্তারিত, উচ্চ-রেজোলিউশন এইচডিআর পরিবেশ মানচিত্রে পরিশীলিত করে, দৃশ্যমান পৃষ্ঠ থেকে প্রতিফলনের মতো সূক্ষ্ম বিবরণ পুনরুদ্ধার করে।

2.5. ইন-নেটওয়ার্ক মন্টে-কার্লো রেন্ডারিং স্তর

একটি গুরুত্বপূর্ণ উদ্ভাবন হলো একটি ইন-নেটওয়ার্ক মন্টে-কার্লো রেন্ডারিং স্তর। এই স্তরটি ভবিষ্যদ্বাণীকৃত এইচডিআর পরিবেশ মানচিত্র এবং একটি ভার্চুয়াল বস্তুর ৩ডি মডেল গ্রহণ করে, পাথ ট্রেসিং-এর মাধ্যমে এটি রেন্ডার করে এবং ফলাফলটি একটি গ্রাউন্ড ট্রুথ রেন্ডারিং-এর সাথে তুলনা করে। এই ফটোরিয়ালিস্টিক লস থেকে প্রাপ্ত গ্রেডিয়েন্ট আলোক ভবিষ্যদ্বাণী পাইপলাইনের মাধ্যমে ব্যাকপ্রপাগেট করা হয়, যা বাস্তবসম্মত বস্তু সন্নিবেশের চূড়ান্ত লক্ষ্যের জন্য সরাসরি অপ্টিমাইজেশন করে।

2.6. কালিক সামঞ্জস্যের জন্য রিকারেন্ট নিউরাল নেটওয়ার্ক

ভিডিও ক্রম ইনপুটের জন্য, কাঠামোতে রিকারেন্ট নিউরাল নেটওয়ার্ক (আরএনএন) অন্তর্ভুক্ত করা হয়েছে। আরএনএন-গুলো অতীত ফ্রেম থেকে তথ্য সংগ্রহ করে, যা সিস্টেমটিকে দৃশ্যের আরও বেশি অংশ পর্যবেক্ষণ করা হলে এসজিএলভি ক্রমাগত পরিমার্জিত করতে সক্ষম করে। আরও গুরুত্বপূর্ণভাবে, তারা পরপর ফ্রেমের ভবিষ্যদ্বাণীগুলোর মধ্যে মসৃণ রূপান্তর নিশ্চিত করে, ঝলকানি দূর করে এবং কালিক সঙ্গতি বজায় রাখে।

3. ডেটাসেট উন্নয়ন: ওপেনরুমস

এমন একটি ডেটা-ক্ষুধার্ত মডেল প্রশিক্ষণের জন্য গ্রাউন্ড ট্রুথ এইচডিআর আলোক সহ অভ্যন্তরীণ দৃশ্যের একটি বিশাল ডেটাসেট প্রয়োজন। লেখকরা সর্বজনীন ওপেনরুমস ডেটাসেটটি উল্লেখযোগ্যভাবে উন্নত করেছেন। উন্নত সংস্করণে প্রায় ৩৬০,০০০টি এইচডিআর পরিবেশ মানচিত্র অনেক বেশি রেজোলিউশনে এবং ৩৮,০০০টি ভিডিও ক্রম অন্তর্ভুক্ত রয়েছে, যেগুলো সবই ভৌত নির্ভুলতার জন্য জিপিইউ-ত্বরিত পাথ ট্রেসিং ব্যবহার করে রেন্ডার করা হয়েছে। এই ডেটাসেটটি গবেষণা সম্প্রদায়ের জন্য একটি উল্লেখযোগ্য অবদান।

ডেটাসেট পরিসংখ্যান

৩৬০K এইচডিআর পরিবেশ মানচিত্র

৩৮K ভিডিও ক্রম

পাথ-ট্রেসড গ্রাউন্ড ট্রুথ

4. পরীক্ষা ও ফলাফল

4.1. পরীক্ষামূলক সেটআপ

কাঠামোটি সর্বাধুনিক একক-ছবি (যেমন, [Gardner et al. 2017], [Song et al. 2022]) এবং ভিডিও-ভিত্তিক আলোক অনুমান পদ্ধতির বিরুদ্ধে মূল্যায়ন করা হয়েছে। মেট্রিকগুলোর মধ্যে রেন্ডার করা বস্তুর উপর স্ট্যান্ডার্ড ইমেজ-ভিত্তিক মেট্রিক (PSNR, SSIM), সেইসাথে উপলব্ধিমূলক মেট্রিক (LPIPS) এবং ফটোরিয়ালিজম মূল্যায়নের জন্য ব্যবহারকারী গবেষণা অন্তর্ভুক্ত ছিল।

4.2. পরিমাণগত ফলাফল

প্রস্তাবিত পদ্ধতিটি পরিমাণগত তুলনায় সমস্ত বেসলাইনকে ছাড়িয়ে গেছে। এটি ভার্চুয়াল বস্তু রেন্ডারিং-এর জন্য উচ্চতর PSNR এবং SSIM স্কোর অর্জন করেছে, যা আরও সঠিক আলোক ভবিষ্যদ্বাণী নির্দেশ করে। উপলব্ধিমূলক মেট্রিক (LPIPS) স্কোরও উচ্চতর ছিল, যা ইঙ্গিত করে যে ফলাফলগুলো মানব পর্যবেক্ষকের কাছে আরও ফটোরিয়ালিস্টিক ছিল।

4.3. গুণগত ফলাফল ও দৃশ্যত তুলনা

গুণগত ফলাফল, যেমন পিডিএফ-এর চিত্র ১-এ প্রস্তাবিত, তা উল্লেখযোগ্য সুবিধা প্রদর্শন করে:

4.4. অবলেশন স্টাডিজ

অবলেশন স্টাডিজ প্রতিটি উপাদানের গুরুত্ব নিশ্চিত করেছে:

5. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

লস ফাংশনটি একটি বহু-পদবিশিষ্ট উদ্দেশ্য: $\mathcal{L} = \mathcal{L}_{env} + \alpha \mathcal{L}_{render} + \beta \mathcal{L}_{temp}$

প্যারামিটার $\alpha$ এবং $\beta$ প্রতিটি পদের অবদান ভারসাম্য করে।

6. বিশ্লেষণ কাঠামো: মূল অন্তর্দৃষ্টি ও যৌক্তিক প্রবাহ

মূল অন্তর্দৃষ্টি: গবেষণাপত্রের মৌলিক অগ্রগতি শুধুমাত্র পরিবেশ মানচিত্রের জন্য একটি ভালো নিউরাল নেটওয়ার্ক নয়; এটি এই স্বীকৃতি যে আলোক একটি ৩ডি ক্ষেত্র বৈশিষ্ট্য, একটি ২ডি দৃশ্য-নির্ভর টেক্সচার নয়। আউটপুটকে একটি ২ডি প্যানোরামা থেকে একটি ৩ডি গোলকীয় গাউসিয়ান আলোক আয়তনে (এসজিএলভি) স্থানান্তরিত করে, লেখকরা স্থানিক সামঞ্জস্য সমস্যাটি তার মূলেই সমাধান করেছেন। এটি একটি ধারণাগত লাফ যা ইমেজ-ভিত্তিক রেন্ডারিং থেকে নিউরাল রেডিয়েন্স ফিল্ড (NeRF) [Mildenhall et al. 2020]-এ স্থানান্তরের অনুরূপ—এটি উপস্থাপনাকে দৃশ্যের অন্তর্নিহিত ৩ডি স্থানে নিয়ে যায়। ইন-নেটওয়ার্ক মন্টে-কার্লো রেন্ডারারটি দ্বিতীয় মাস্টারস্ট্রোক, যা আলোক অনুমান ও সাফল্যের চূড়ান্ত মেট্রিকের মধ্যে একটি সরাসরি, গ্রেডিয়েন্ট-ভিত্তিক সংযোগ তৈরি করে: এআর কম্পোজিশনে ফটোরিয়ালিজম।

যৌক্তিক প্রবাহ: আর্কিটেকচারের যুক্তি অত্যন্ত কার্যকারণমূলক। ১) ৩ডি প্রাসঙ্গিকীকরণ: ইনপুট (এলডিআর + গভীরতা) একটি ৩ডি বৈশিষ্ট্য আয়তনে একীভূত হয়। ২) আয়তনিক আলোক পুনর্গঠন: ডিকোডার একটি এসজিএলভি আউটপুট দেয়—একটি স্থানিকভাবে সচেতন আলোক মডেল। ৩) পার্থক্যযোগ্য পদার্থবিদ্যা: আয়তন রে ট্রেসিং যেকোনো দৃষ্টিকোণের জন্য এই মডেলকে প্রশ্ন করে, নির্মাণের মাধ্যমে স্থানিক সামঞ্জস্য নিশ্চিত করে। ৪) উপস্থিতি পরিশোধন ও সরাসরি অপ্টিমাইজেশন: একটি ২ডি নেটওয়ার্ক উচ্চ-ফ্রিকোয়েন্সি বিবরণ যোগ করে, এবং মন্টে-কার্লো স্তরটি সরাসরি চূড়ান্ত রেন্ডার গুণমানের জন্য অপ্টিমাইজ করে। ৫) কালিক সংহতকরণ: ভিডিওর জন্য, আরএনএন-গুলো একটি মেমরি ব্যাঙ্ক হিসাবে কাজ করে, সময়ের সাথে এসজিএলভি পরিশোধন করে এবং মসৃণতার জন্য আউটপুট লো-পাস ফিল্টার করে। প্রতিটি ধাপ পূর্ববর্তী কাজের একটি নির্দিষ্ট দুর্বলতা সমাধান করে।

7. শক্তি, ত্রুটি ও কার্যকরী অন্তর্দৃষ্টি

শক্তি:

  1. মৌলিক উপস্থাপনা: এসজিএলভি একটি মার্জিত, শক্তিশালী উপস্থাপনা যা সম্ভবত আলোক অনুমানের বাইরেও ভবিষ্যতের কাজকে প্রভাবিত করবে।
  2. কাজের জন্য এন্ড-টু-এন্ড অপ্টিমাইজেশন: ইন-নেটওয়ার্ক রেন্ডারারটি কাজ-নির্দিষ্ট লস ডিজাইনের একটি উজ্জ্বল উদাহরণ, যা প্রক্সি লস (যেমন পরিবেশ মানচিত্রে L2) থেকে সরে গিয়ে প্রকৃত উদ্দেশ্যের জন্য অপ্টিমাইজ করে।
  3. সম্পূর্ণ সমাধান: এটি একটি একীভূত কাঠামোর মধ্যে একক-ছবি ও ভিডিও উভয় সমস্যা সমাধান করে, স্থানিক ও কালিক সামঞ্জস্য উভয়ই মোকাবেলা করে—একটি বিরল সংমিশ্রণ।
  4. সম্পদ অবদান: উন্নত ওপেনরুমস ডেটাসেটটি গবেষণা সম্প্রদায়ের জন্য একটি প্রধান সম্পদ।

ত্রুটি ও সমালোচনামূলক প্রশ্ন:

  1. গভীরতা নির্ভরতা: পদ্ধতিটির জন্য একটি গভীরতা মানচিত্র প্রয়োজন। যদিও গভীরতা সেন্সর সাধারণ, মনোকুলার আরজিবি ইনপুটে কার্যকারিতা অস্পষ্ট। এটি ডেপথ সেন্সিং ছাড়া লিগ্যাসি মিডিয়া বা ডিভাইসে প্রয়োগযোগ্যতা সীমিত করে।
  2. গণনামূলক খরচ: প্রশিক্ষণে পাথ ট্রেসিং জড়িত। ইনফারেন্সের জন্য আয়তন রে ট্রেসিং প্রয়োজন। এটি এখনও একটি হালকা মোবাইল সমাধান নয়। গবেষণাপত্রটি ইনফারেন্স গতি বা মডেল কম্প্রেশন সম্পর্কে নীরব।
  3. "ইন-দ্য-ওয়াইল্ড" ডেটাতে সাধারণীকরণ: মডেলটি একটি সিন্থেটিক, পাথ-ট্রেসড ডেটাসেট (ওপেনরুমস) এ প্রশিক্ষিত। বাস্তব-বিশ্বের, শোরগোলপূর্ণ, দুর্বল এক্সপোজারযুক্ত মোবাইল ফটোতে এর কার্যকারিতা—যেগুলো প্রায়শই পাথ ট্রেসিং-এর ভৌত অনুমান লঙ্ঘন করে—এআর মোতায়েনের জন্য বিলিয়ন-ডলার প্রশ্ন রয়ে গেছে।
  4. উপাদান অস্পষ্টতা: সমস্ত ইনভার্স রেন্ডারিং কাজের মতো, আলোক অনুমান পৃষ্ঠ উপাদান অনুমানের সাথে জড়িত। কাঠামোটি পরিচিত বা মোটামুটি অনুমানকৃত জ্যামিতি ধরে নেয় কিন্তু স্পষ্টভাবে উপাদানগুলোর জন্য সমাধান করে না, যা জটিল, নন-ল্যাম্বার্টিয়ান দৃশ্যে নির্ভুলতা সীমিত করতে পারে।

কার্যকরী অন্তর্দৃষ্টি:

  1. গবেষকদের জন্য: এসজিএলভি + আয়তন ট্রেসিং প্যারাডাইম হল মূল টেকঅ্যাওয়ে। ভিউ সিন্থেসিস বা উপাদান অনুমানের মতো সম্পর্কিত কাজে এর প্রয়োগ অন্বেষণ করুন। বাস্তব-বিশ্বের মোবাইল ডেটার জন্য সিম-টু-রিয়াল ফাঁক পূরণের জন্য স্ব-তত্ত্বাবধানে বা টেস্ট-টাইম অ্যাডাপ্টেশন কৌশল তদন্ত করুন।
  2. প্রকৌশলী/পণ্য দলের জন্য: উচ্চ-নিষ্ঠা এআর-এর জন্য একটি স্বর্ণমান রেফারেন্স হিসাবে এটি বিবেচনা করুন। স্বল্পমেয়াদী পণ্য সংহতকরণের জন্য, এই মডেলটিকে পাতন করার (যেমন, নলেজ ডিস্টিলেশন [Hinton et al. 2015] এর মাধ্যমে) উপর ফোকাস করুন একটি মোবাইল-বান্ধব সংস্করণে যা রিয়েল-টাইমে চলতে পারে, সম্ভবত এসজিএলভি-কে একটি আরও দক্ষ ডেটা স্ট্রাকচার দিয়ে আনুমানিক করে।
  3. ডেটা কৌশলবিদদের জন্য: উচ্চ-মানের সিন্থেটিক ডেটার মূল্য প্রমাণিত। আরও বৈচিত্র্যময়, ভৌতভাবে সঠিক সিন্থেটিক ডেটাসেট তৈরি করতে বিনিয়োগ করুন যা আলোক ঘটনার একটি বিস্তৃত পরিসর ধারণ করে (যেমন, জটিল কস্টিক, অংশগ্রহণকারী মিডিয়া)।

8. অ্যাপ্লিকেশন সম্ভাবনা ও ভবিষ্যৎ দিকনির্দেশনা

তাত্ক্ষণিক অ্যাপ্লিকেশন:

ভবিষ্যৎ গবেষণা দিকনির্দেশনা:

  1. একীভূত ইনভার্স রেন্ডারিং: স্পার্স ইনপুট থেকে আলোক, উপাদান এবং জ্যামিতি যৌথভাবে অনুমান করার জন্য কাঠামোটি প্রসারিত করা, একটি সম্পূর্ণ দৃশ্য বোঝার পাইপলাইনের দিকে অগ্রসর হওয়া।
  2. দক্ষতা ও অন-ডিভাইস মোতায়েন: মডেল কম্প্রেশন, দক্ষ নিউরাল রেন্ডারিং কৌশল এবং হার্ডওয়্যার-সচেতন আর্কিটেকচারে গবেষণা এই স্তরের গুণমান রিয়েল-টাইম মোবাইল এআরে নিয়ে আসতে।
  3. গতিশীল আলোক পরিচালনা: বর্তমান কাজ স্থির দৃশ্যের উপর ফোকাস করে। একটি প্রধান সীমান্ত হলো গতিশীল আলোক পরিবর্তন অনুমান ও ভবিষ্যদ্বাণী করা (যেমন, আলো চালু/বন্ধ করা, আলোর উৎস সরানো, সূর্যালোক পরিবর্তন)।
  4. নিউরাল দৃশ্য উপস্থাপনার সাথে সংহতকরণ: এসজিএলভি ধারণাকে NeRF বা 3D Gaussian Splatting [Kerbl et al. 2023]-এর মতো অন্তর্নিহিত উপস্থাপনার সাথে একত্রিত করে একটি সম্পূর্ণরূপে পার্থক্যযোগ্য, সম্পাদনাযোগ্য নিউরাল দৃশ্য মডেল তৈরি করা।

9. তথ্যসূত্র

  1. Zhengqin Li, Li Yu, Mikhail Okunev, Manmohan Chandraker, Zhao Dong. "Spatiotemporally Consistent HDR Indoor Lighting Estimation." ACM Trans. Graph. (Proc. SIGGRAPH), 2023.
  2. Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." ECCV, 2020.
  3. Geoffrey Hinton, Oriol Vinyals, Jeff Dean. "Distilling the Knowledge in a Neural Network." arXiv:1503.02531, 2015.
  4. Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM Trans. Graph., 2023.
  5. Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV, 2017. (CycleGAN - সিম-টু-রিয়েলের জন্য প্রাসঙ্গিক ডোমেন অ্যাডাপ্টেশন ধারণার জন্য উদ্ধৃত)।
  6. OpenRooms Dataset. https://openrooms.github.io/