1. ভূমিকা ও সারসংক্ষেপ
কম্পিউটার ভিশন ও গ্রাফিক্সে আলোকায়ন হল দৃশ্যমান চেহারার একটি মৌলিক কিন্তু কুখ্যাতভাবে জটিল উপাদান। ঐতিহ্যগত উপস্থাপনাগুলি—এনভায়রনমেন্ট ম্যাপ, ইরেডিয়েন্স ম্যাপ, গোলাকার হারমোনিক্স এবং টেক্সচুয়াল বর্ণনা—বেশিরভাগ ক্ষেত্রেই অসামঞ্জস্যপূর্ণ রয়ে গেছে, যা ক্রস-মোডাল আলোকায়ন বোঝা ও নিয়ন্ত্রণের জন্য উল্লেখযোগ্য বাধা সৃষ্টি করেছে। ইউনিলাইট এই বিচ্ছিন্নতা দূর করে একটি একীভূত যৌথ লেটেন্ট স্পেস প্রস্তাবের মাধ্যমে যা এই ভিন্ন ভিন্ন মোডালিটিগুলির মধ্যে সেতুবন্ধন তৈরি করে।
মূল উদ্ভাবনটি হল একটি কনট্রাস্টিভ লার্নিং ফ্রেমওয়ার্ক ব্যবহার করে মোডালিটি-নির্দিষ্ট এনকোডার (টেক্সট, ইমেজ, ইরেডিয়েন্স এবং এনভায়রনমেন্ট ম্যাপের জন্য) প্রশিক্ষণ দেওয়া, যা তাদের উপস্থাপনাগুলিকে একটি ভাগ করা উচ্চ-মাত্রিক স্পেসে সারিবদ্ধ হতে বাধ্য করে। গোলাকার হারমোনিক্স সহগের পূর্বাভাস দেওয়ার একটি সহায়ক কাজ মডেলের দিকনির্দেশক আলোকায়ন বৈশিষ্ট্য বোঝার ক্ষমতাকে শক্তিশালী করে।
মূল অন্তর্দৃষ্টি
- একীকরণ: পূর্বে অসামঞ্জস্যপূর্ণ আলোকায়ন ফরম্যাটগুলি থেকে একটি একক, সুসংগত উপস্থাপনা তৈরি করে।
- নমনীয়তা: ক্রস-মোডাল পুনরুদ্ধার এবং কন্ডিশনাল জেনারেশনের মতো অভিনব অ্যাপ্লিকেশন সক্ষম করে।
- ডেটা-চালিত: প্রশিক্ষণের জন্য একটি স্কেলযোগ্য মাল্টিমোডাল ডেটা পাইপলাইন কাজে লাগায়।
2. মূল পদ্ধতিবিদ্যা
ইউনিলাইটের আর্কিটেকচারটি একাধিক উৎস থেকে আলোকায়ন তথ্য আহরণ করে এবং একটি সাধারণ এম্বেডিং স্পেসে সামঞ্জস্য করার জন্য ডিজাইন করা হয়েছে।
2.1 যৌথ লেটেন্ট স্পেস আর্কিটেকচার
মডেলটি একটি ভাগ করা লেটেন্ট স্পেস $\mathcal{Z} \subset \mathbb{R}^d$ প্রতিষ্ঠা করে, যেখানে $d$ হল এম্বেডিং মাত্রা। প্রতিটি ইনপুট মোডালিটি $x_m$ (যেখানে $m \in \{\text{text, image, irradiance, envmap}\}$) একটি নির্দিষ্ট এনকোডার $E_m$ দ্বারা প্রক্রিয়াজাত হয়ে একটি এম্বেডিং $z_m = E_m(x_m) \in \mathcal{Z}$ তৈরি করে। উদ্দেশ্য হল নিশ্চিত করা যে বিভিন্ন মোডালিটির জন্য $z_m$, যখন একই আলোকায়ন অবস্থা বর্ণনা করে, তখন তারা ঘনিষ্ঠভাবে সারিবদ্ধ থাকে।
2.2 মোডালিটি-নির্দিষ্ট এনকোডারসমূহ
- টেক্সট এনকোডার: একটি ট্রান্সফরমার আর্কিটেকচারের উপর ভিত্তি করে (যেমন, একটি CLIP-স্টাইলের টেক্সট এনকোডার) প্রাকৃতিক ভাষার বর্ণনা যেমন "আউটডোর, উজ্জ্বল এবং ডানদিকের উপর থেকে সরাসরি সূর্যালোক" প্রক্রিয়া করার জন্য।
- ইমেজ/এনভায়রনমেন্ট ম্যাপ/ইরেডিয়েন্স এনকোডারসমূহ: আলোকায়নের দ্বি-মাত্রিক ভিজুয়াল উপস্থাপনা (HDR এনভায়রনমেন্ট ম্যাপ, ইরেডিয়েন্স ম্যাপ, বা সাধারণ ইমেজ) প্রক্রিয়া করতে ভিশন ট্রান্সফরমার (ViT) ব্যবহার করে।
2.3 প্রশিক্ষণ উদ্দেশ্য
প্রশিক্ষণ দুটি প্রধান উদ্দেশ্যকে একত্রিত করে:
- কনট্রাস্টিভ লস ($\mathcal{L}_{cont}$): একটি নয়েজ-কনট্রাস্টিভ এস্টিমেশন (যেমন, InfoNCE) ব্যবহার করে বিভিন্ন মোডালিটি থেকে একই আলোকায়ন দৃশ্যের এম্বেডিংগুলিকে কাছাকাছি টানে (পজিটিভ জোড়া) এবং বিভিন্ন দৃশ্যের এম্বেডিংগুলিকে দূরে সরিয়ে দেয় (নেগেটিভ জোড়া)। $N$ মাল্টিমোডাল জোড়ার একটি ব্যাচের জন্য, একটি অ্যাঙ্কর $i$-এর ক্ষতি হল: $$\mathcal{L}_{cont}^{i} = -\log\frac{\exp(\text{sim}(z_i, z_{i}^+) / \tau)}{\sum_{j=1, j\neq i}^{N} \exp(\text{sim}(z_i, z_j) / \tau)}$$ যেখানে $\text{sim}$ হল একটি কোসাইন সাদৃশ্য এবং $\tau$ হল একটি তাপমাত্রা প্যারামিটার।
- গোলাকার হারমোনিক্স সহায়ক ক্ষতি ($\mathcal{L}_{sh}$): একটি মাল্টি-লেয়ার পারসেপট্রন (MLP) হেড যৌথ এম্বেডিং $z$ থেকে একটি ৩য়-ডিগ্রি গোলাকার হারমোনিক্স (SH) উপস্থাপনার সহগগুলির পূর্বাভাস দেয়। এই রিগ্রেশন লস $\mathcal{L}_{sh} = ||\hat{Y} - Y||_2^2$ স্পষ্টভাবে দিকনির্দেশক আলোকায়ন তথ্য এনকোডিংকে বলবৎ করে, যা রিলাইটিংয়ের মতো কাজের জন্য অত্যন্ত গুরুত্বপূর্ণ।
মোট ক্ষতি হল $\mathcal{L} = \mathcal{L}_{cont} + \lambda \mathcal{L}_{sh}$, যেখানে $\lambda$ দুটি পদকে সামঞ্জস্য করে।
3. প্রযুক্তিগত বাস্তবায়ন
3.1 গাণিতিক সূত্রায়ন
গোলাকার হারমোনিক্স পূর্বাভাস দিকনির্দেশনা ক্যাপচার করার কেন্দ্রবিন্দু। গোলাকার হারমোনিক্স $Y_l^m(\theta, \phi)$ গোলকের উপর একটি অর্থোনর্মাল ভিত্তি গঠন করে। আলোকায়নকে আনুমানিকভাবে প্রকাশ করা যায়: $$L(\theta, \phi) \approx \sum_{l=0}^{L}\sum_{m=-l}^{l} c_l^m Y_l^m(\theta, \phi)$$ যেখানে $L$ হল ব্যান্ড সীমা (ইউনিলাইটে ডিগ্রি ৩), এবং $c_l^m$ হল SH সহগ। সহায়ক কাজটি একটি ম্যাপিং $f: \mathcal{Z} \rightarrow \mathbb{C}^{16}$ শেখে ($l=3$ পর্যন্ত বাস্তব-মানের $c_l^m$ এর জন্য)।
3.2 ডেটা পাইপলাইন
মাল্টিমোডাল পাইপলাইনটি HDR এনভায়রনমেন্ট ম্যাপের একটি মূল ডেটাসেট থেকে শুরু হয়। এগুলি থেকে সিনথেটিক ইরেডিয়েন্স ম্যাপ রেন্ডার করা হয়, এবং সংশ্লিষ্ট টেক্সচুয়াল বর্ণনা হয় মেটাডেটা থেকে সংগ্রহ করা হয় অথবা একটি ভিশন-ল্যাঙ্গুয়েজ মডেল ব্যবহার করে তৈরি করা হয়। এই পাইপলাইনটি একটি একক উৎস মোডালিটি থেকে বৃহৎ-পরিসরের, জোড়া মাল্টিমোডাল প্রশিক্ষণ ডেটা তৈরির সুযোগ দেয়।
4. পরীক্ষামূলক ফলাফল
ইউনিলাইটের কার্যকারিতা তিনটি ডাউনস্ট্রিম টাস্কে মূল্যায়ন করা হয়েছিল, যা তার একীভূত উপস্থাপনার উপযোগিতা প্রদর্শন করে।
4.1 আলোকায়ন-ভিত্তিক পুনরুদ্ধার
কাজ: একটি মোডালিটিতে একটি প্রশ্ন (যেমন, টেক্সট) দেওয়া হলে, অন্য মোডালিটির একটি ডেটাবেস (যেমন, এনভায়রনমেন্ট ম্যাপ) থেকে সবচেয়ে সদৃশ আলোকায়ন উদাহরণ পুনরুদ্ধার করা।
ফলাফল: ইউনিলাইট মোডালিটি-নির্দিষ্ট বৈশিষ্ট্য ব্যবহার করে এমন বেসলাইন পদ্ধতিগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে। যৌথ এম্বেডিং অর্থপূর্ণ ক্রস-মোডাল সাদৃশ্য অনুসন্ধান সক্ষম করেছে, যেমন টেক্সট থেকে "নীল আকাশ, প্রাকৃতিক" এর সাথে মিলে যাওয়া একটি এনভায়রনমেন্ট ম্যাপ খুঁজে বের করা।
4.2 এনভায়রনমেন্ট ম্যাপ তৈরিকরণ
কাজ: যেকোনো ইনপুট মোডালিটি থেকে ইউনিলাইট এম্বেডিং-এর উপর ভিত্তি করে একটি জেনারেটিভ মডেল (যেমন, একটি ডিফিউশন মডেল) কন্ডিশন করে একটি নতুন, উচ্চ-রেজোলিউশনের HDR এনভায়রনমেন্ট ম্যাপ সংশ্লেষণ করা।
ফলাফল: তৈরি করা ম্যাপগুলি ফটোরিয়ালিস্টিক ছিল এবং কন্ডিশনিং ইনপুট (টেক্সট, ইমেজ, বা ইরেডিয়েন্স) এর সাথে শব্দার্থগতভাবে সামঞ্জস্যপূর্ণ ছিল। মডেলটি সূর্যের দিক এবং আকাশের রঙের মতো গ্লোবাল ইলুমিনেশন বৈশিষ্ট্যগুলি সফলভাবে ক্যাপচার করেছে।
4.3 ডিফিউশন-ভিত্তিক ইমেজ সংশ্লেষণ নিয়ন্ত্রণ
কাজ: একটি টেক্সট-টু-ইমেজ ডিফিউশন মডেলের আলোকায়নকে নির্দেশিত করতে ইউনিলাইট এম্বেডিং ব্যবহার করা, যা কনটেন্ট বর্ণনা থেকে আলাদা করে স্পষ্ট আলোকায়ন নিয়ন্ত্রণ সক্ষম করে।
ফলাফল: আলোকায়ন এম্বেডিংকে ডিফিউশন প্রক্রিয়ায় ইনজেক্ট করে (যেমন, ক্রস-অ্যাটেনশন বা অ্যাডাপ্টার মডিউলের মাধ্যমে), ব্যবহারকারীরা নির্দিষ্ট, নিয়ন্ত্রণযোগ্য আলোকায়ন সহ ইমেজ তৈরি করতে পারতেন যা টেক্সট বা একটি রেফারেন্স ইমেজ দ্বারা বর্ণিত, যা সম্পূর্ণরূপে প্রম্পট-ভিত্তিক নিয়ন্ত্রণের তুলনায় একটি উল্লেখযোগ্য অগ্রগতি।
কর্মক্ষমতা সারসংক্ষেপ
পুনরুদ্ধার নির্ভুলতা (শীর্ষ-১): মোডালিটি-নির্দিষ্ট বেসলাইনগুলির তুলনায় ~১৫-২৫% বেশি।
জেনারেশন FID স্কোর: SH সহায়ক ক্ষতি ছাড়া অ্যাবলেটেড মডেলগুলির তুলনায় ~১০% উন্নতি।
ব্যবহারকারীর পছন্দ (আলোকায়ন নিয়ন্ত্রণ): বেসলাইন ডিফিউশন আউটপুটের তুলনায় ইউনিলাইট-নির্দেশিত ইমেজের জন্য >৭০% পছন্দ।
5. বিশ্লেষণ কাঠামো ও কেস স্টাডি
কাঠামোর প্রয়োগ: একটি আলোকায়ন অনুমান পদ্ধতি বিশ্লেষণ করতে, আমরা একটি কাঠামো প্রয়োগ করতে পারি যা তার উপস্থাপনামূলক ক্ষমতা, ক্রস-মোডাল নমনীয়তা, এবং ডাউনস্ট্রিম টাস্ক কার্যকারিতা মূল্যায়ন করে।
কেস স্টাডি - ভার্চুয়াল পণ্য ফটোগ্রাফি:
- লক্ষ্য: একটি সূর্যাস্তের ব্যবহারকারী-আপলোড করা ফটোর সাথে মিলে যাওয়া আলোকায়নে একটি স্নিকারের 3D মডেল রেন্ডার করা।
- ইউনিলাইটের মাধ্যমে প্রক্রিয়া:
- ব্যবহারকারীর রেফারেন্স ইমেজটি ইমেজ এনকোডারের মাধ্যমে যৌথ লেটেন্ট স্পেস $\mathcal{Z}$-এ এনকোড করা হয়।
- এই আলোকায়ন এম্বেডিং $z_{img}$ পুনরুদ্ধার করা হয়।
- বিকল্প A (পুনরুদ্ধার): একটি রেন্ডারারে ব্যবহারের জন্য একটি লাইব্রেরি থেকে সবচেয়ে সদৃশ পূর্ব-বিদ্যমান HDR এনভায়রনমেন্ট ম্যাপ খুঁজে বের করা।
- বিকল্প B (তৈরিকরণ): $z_{img}$ ব্যবহার করে একটি জেনারেটরকে কন্ডিশন করা, সঠিক সূর্যাস্তের রঙের জন্য উপযোগী একটি নতুন, উচ্চ-গুণমানের HDR এনভায়রনমেন্ট ম্যাপ তৈরি করা।
- ফলাফল: 3D স্নিকারটি এমন আলোকায়ন সহ রেন্ডার করা হয় যা সূর্যাস্তের ফটোর উষ্ণ, দিকনির্দেশক আলোর সাথে উপলব্ধিগতভাবে মিলে যায়, যা বিপণন সামগ্রী জুড়ে সামঞ্জস্যপূর্ণ ব্র্যান্ডিং এবং নান্দনিক নিয়ন্ত্রণ সক্ষম করে।
6. সমালোচনামূলক বিশ্লেষণ ও বিশেষজ্ঞের দৃষ্টিভঙ্গি
মূল অন্তর্দৃষ্টি: ইউনিলাইট শুধু আরেকটি আলোকায়ন অনুমানকারী নয়; এটি আলোকসজ্জার জন্য একটি মৌলিক ইন্টারলিঙ্গুয়া। প্রকৃত যুগান্তকারী বিষয় হল আলোকায়নকে একটি প্রথম-শ্রেণীর, মোডালিটি-অজ্ঞেয় ধারণা হিসেবে বিবেচনা করা, ঠিক যেমন CLIP ইমেজ এবং টেক্সটের জন্য একটি যৌথ স্পেস তৈরি করেছিল। অনুমান থেকে অনুবাদ-এ এই পুনঃকাঠামোয়নই এর নমনীয়তা উন্মুক্ত করে।
যুক্তিগত প্রবাহ ও কৌশলগত অবস্থান: গবেষণাপত্রটি ক্ষেত্রটির বিচ্ছিন্নতাকে সঠিকভাবে চিহ্নিত করেছে—একটি বাবেলের টাওয়ার যেখানে গোলাকার হারমোনিক্স টেক্সট প্রম্পটের সাথে কথা বলতে পারে না। তাদের সমাধান একটি প্রমাণিত প্লেবুক অনুসরণ করে: সারিবদ্ধতার জন্য কনট্রাস্টিভ লার্নিং, SimCLR এবং CLIP-এর মতো কাজ দ্বারা জনপ্রিয়, প্লাস একটি ডোমেইন-নির্দিষ্ট নিয়ন্ত্রক (SH পূর্বাভাস)। এটি বুদ্ধিমান প্রকৌশল, খাঁটি নীলাকাশ গবেষণা নয়। এটি ইউনিলাইটকে জেনারেটিভ AI-এর উদীয়মান বিশ্ব (যার নিয়ন্ত্রণের প্রয়োজন) এবং গ্রাফিক্স পাইপলাইনের সুনির্দিষ্ট চাহিদার (যার প্যারামিটারের প্রয়োজন) মধ্যে প্রয়োজনীয় মিডলওয়্যার হিসেবে অবস্থান দেয়।
শক্তি ও ত্রুটি:
- শক্তি: মাল্টিমোডাল ডেটা পাইপলাইন একটি প্রধান সম্পদ, যা একটি স্বল্পতার সমস্যাকে স্কেলযোগ্যতার সুবিধায় পরিণত করে। সহায়ক কাজ হিসেবে SH পূর্বাভাসের পছন্দটি মার্জিত—এটি অন্যথায় সম্পূর্ণরূপে ডেটা-চালিত এম্বেডিং-এ গুরুত্বপূর্ণ শারীরিক পূর্ব জ্ঞান (দিকনির্দেশনা) ইনজেক্ট করে।
- ত্রুটি ও ফাঁক: গবেষণাপত্রটি স্থানিকভাবে পরিবর্তনশীল আলোকায়নের বিষয়ে লক্ষণীয়ভাবে নীরব। বেশিরভাগ বাস্তব-বিশ্বের দৃশ্যে জটিল ছায়া এবং স্থানীয় আলোর উৎস থাকে। একটি ইমেজ এনকোডার থেকে একটি একক গ্লোবাল এম্বেডিং কি সত্যিই তা ক্যাপচার করতে পারে? সম্ভবত না। এটি নন-ল্যাম্বার্টিয়ান বা জটিল অভ্যন্তরীণ দৃশ্যের জন্য প্রযোজ্যতা সীমিত করে। তদুপরি, যদিও এটি তৈরির জন্য একটি ডিফিউশন মডেল ব্যবহার করে, তবে সংযোগের কতটা নিবিড়তা তা অস্পষ্ট। এটি কি একটি সাধারণ কন্ডিশনিং, নাকি ControlNet-এর মতো আরও পরিশীলিত নিয়ন্ত্রণ? এখানে আর্কিটেকচারাল বিস্তারিতের অভাব পুনরুৎপাদনযোগ্যতার জন্য একটি হারানো সুযোগ।
কার্যকরী অন্তর্দৃষ্টি:
- গবেষকদের জন্য: এখানে সবচেয়ে বড় উন্মুক্ত দরজাটি হল "একীভূত উপস্থাপনা" ধারণাটিকে সময় (ভিডিওর জন্য আলোকায়ন ক্রম) এবং স্থান (প্রতি-পিক্সেল বা প্রতি-অবজেক্ট এম্বেডিং) পর্যন্ত প্রসারিত করা। পরবর্তী ধাপ হল একটি "ইউনিলাইট++" যা আলোক পরিবহন সমীকরণের সম্পূর্ণ জটিলতা হ্যান্ডেল করে, শুধু দূরবর্তী আলোকসজ্জা নয়।
- অনুশীলনকারীদের জন্য (প্রযুক্তি প্রধান, পণ্য ব্যবস্থাপক): এটি ডিজিটাল কনটেন্ট তৈরির সরঞ্জামগুলিতে পাইলট ইন্টিগ্রেশনের জন্য প্রস্তুত। তাৎক্ষণিক ব্যবহারের ক্ষেত্র হল ধারণা শিল্প এবং প্রি-ভিজে: শিল্পীদের টেক্সট বা ইমেজ সহ আলোকায়ন লাইব্রেরি অনুসন্ধান করতে দেওয়া, বা একটি মুড বোর্ড থেকে সামঞ্জস্যপূর্ণ আলোকায়ন সহ দৃশ্যগুলি দ্রুত মক-আপ করতে দেওয়া। ইউনিলাইট এম্বেডিংকে নেটিভ লাইট প্রোবে রূপান্তর করে এমন একটি প্লাগইনের মাধ্যমে Unity বা Unreal-এর মতো ইঞ্জিনগুলির সাথে ইন্টিগ্রেশনকে অগ্রাধিকার দিন।
- বিনিয়োগকারীদের জন্য: সৃজনশীল ক্ষেত্রে জেনারেটিভ AI-এর জন্য "কুড়াল ও বেলচা" তৈরি করছে এমন কোম্পানিগুলিতে বাজি ধরুন। ইউনিলাইট সেই ধরনের অবকাঠামো প্রযুক্তির উদাহরণ—ভালো নিয়ন্ত্রণ সক্ষম করা—যা জেনারেটিভ মডেলগুলি নবীনতা থেকে উৎপাদন সরঞ্জামে রূপান্তরিত হওয়ার সাথে সাথে গুরুত্বপূর্ণ হবে। আলোকায়ন ডেটা ও সরঞ্জামের বাজার পরিবর্তনের জন্য প্রস্তুত।
7. ভবিষ্যৎ প্রয়োগ ও দিকনির্দেশনা
- অগমেন্টেড ও ভার্চুয়াল রিয়েলিটি (AR/VR): ব্যবহারকারীর পরিবেশে বিশ্বাসযোগ্যভাবে স্থাপন করা ভার্চুয়াল অবজেক্টগুলিকে আলোকিত করার জন্য একটি স্মার্টফোন ক্যামেরা ফিড (ইমেজ মোডালিটি) থেকে এনভায়রনমেন্ট আলোকায়নের রিয়েল-টাইম অনুমান।
- স্বয়ংক্রিয় কনটেন্ট তৈরিকরণ: পরিচালকের নোট (টেক্সট) বা রেফারেন্স সিনেমাটোগ্রাফি (ইমেজ) এর উপর ভিত্তি করে স্বয়ংক্রিয় আলোকায়ন সেটআপের জন্য চলচ্চিত্র ও গেম উৎপাদন পাইপলাইনে একীকরণ।
- স্থাপত্য দৃশ্যায়ন ও অভ্যন্তরীণ নকশা: ক্লায়েন্টদের কাঙ্ক্ষিত আলোকায়নের মেজাজ বর্ণনা করতে দেওয়া ("আরামদায়ক সন্ধ্যার লাউঞ্জ") এবং সেই আলোকায়নের অধীনে 3D স্থাপত্য মডেলগুলি তাৎক্ষণিকভাবে দৃশ্যমান করা।
- নিউরাল রেন্ডারিং ও ইনভার্স গ্রাফিক্স: ইনভার্স রেন্ডারিং কাজের জন্য একটি শক্তিশালী আলোকায়ন প্রায়র হিসেবে কাজ করা, একক ইমেজ থেকে জ্যামিতি, উপাদান এবং আলোকায়নকে আরও কার্যকরভাবে আলাদা করতে সাহায্য করা।
- গবেষণা দিকনির্দেশনা - গতিশীল আলোকায়ন: ভিডিও রিলাইটিং এবং সম্পাদনার জন্য সময়ের সাথে আলোকায়ন পরিবর্তন মডেল করার জন্য কাঠামোটি প্রসারিত করা।
- গবেষণা দিকনির্দেশনা - ব্যক্তিগতকৃত আলোকায়ন: ইন্টারঅ্যাকশন ডেটা থেকে ব্যবহারকারী-নির্দিষ্ট আলোকায়ন পছন্দ শেখা এবং তৈরি বা সম্পাদিত কনটেন্ট জুড়ে সেগুলি প্রয়োগ করা।
8. তথ্যসূত্র
- Zhang, Z., Georgiev, I., Fischer, M., Hold-Geoffroy, Y., Lalonde, J-F., & Deschaintre, V. (2025). UniLight: A Unified Representation for Lighting. arXiv preprint arXiv:2512.04267.
- Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML (CLIP).
- Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. ICML (SimCLR).
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
- Ramamoorthi, R., & Hanrahan, P. (2001). An Efficient Representation for Irradiance Environment Maps. SIGGRAPH (Spherical Harmonics for Lighting).