1. ভূমিকা ও সারসংক্ষেপ

এআই-জেনারেটেড ভিডিওতে আলোকসজ্জা একটি মৌলিক কিন্তু কুখ্যাতভাবে নিয়ন্ত্রণ করা কঠিন উপাদান। টেক্সট-টু-ভিডিও (T2V) মডেলগুলি উল্লেখযোগ্য অগ্রগতি সাধন করলেও, দৃশ্যের শব্দার্থবিদ্যা থেকে স্বাধীনভাবে আলোকসজ্জার অবস্থা আলাদা করা এবং সামঞ্জস্যপূর্ণভাবে প্রয়োগ করা একটি বড় চ্যালেঞ্জ হিসেবেই রয়ে গেছে। লুমিস্কাল্প্ট সরাসরি এই ফাঁকটি মোকাবেলা করে। এটি একটি অভিনব ফ্রেমওয়ার্ক যা ভিডিও ডিফিউশন মডেলের মধ্যে আলোকসজ্জার তীব্রতা, অবস্থান এবং গতিপথের উপর সুনির্দিষ্ট, ব্যবহারকারী-নির্দিষ্ট নিয়ন্ত্রণ প্রবর্তন করে। সিস্টেমের উদ্ভাবন দ্বিমুখী: প্রথমত, এটি লুমিহিউম্যান প্রবর্তন করে, যা পরিচিত আলোকসজ্জা প্যারামিটার সহ ২২০,০০০-এরও বেশি পোর্ট্রেট ভিডিওর একটি নতুন, হালকা ওজনের ডেটাসেট, যা একটি গুরুত্বপূর্ণ তথ্যের ঘাটতির সমস্যার সমাধান করে। দ্বিতীয়ত, এটি একটি শেখার যোগ্য, প্লাগ-অ্যান্ড-প্লে মডিউল ব্যবহার করে যা পূর্ব-প্রশিক্ষিত T2V মডেলগুলিতে আলোকসজ্জার অবস্থা প্রবেশ করায় বিষয়বস্তু বা রঙের মতো অন্যান্য বৈশিষ্ট্যকে ক্ষুণ্ন না করে, সরল পাঠ্য বর্ণনা এবং আলোকসজ্জা পথ থেকে উচ্চ-নির্ভুলতা, সামঞ্জস্যপূর্ণ আলোকসজ্জা অ্যানিমেশন সক্ষম করে।

2. মূল পদ্ধতি: লুমিস্কাল্প্ট ফ্রেমওয়ার্ক

লুমিস্কাল্প্ট পাইপলাইনটি নিরবচ্ছিন্ন একীকরণ এবং নিয়ন্ত্রণের জন্য ডিজাইন করা হয়েছে। একজন ব্যবহারকারী দৃশ্যটি বর্ণনা করে একটি টেক্সট প্রম্পট এবং ভার্চুয়াল আলোর উৎসের জন্য একটি স্পেসিফিকেশন (যেমন, গতিপথ, তীব্রতা) প্রদান করে। সিস্টেমটি তারপর তার প্রশিক্ষিত উপাদানগুলিকে কাজে লাগিয়ে একটি ভিডিও তৈরি করে যেখানে আলোকসজ্জা ব্যবহারকারীর নির্দেশনা অনুযায়ী সামঞ্জস্যপূর্ণভাবে বিকশিত হয়।

2.1 লুমিহিউম্যান ডেটাসেট

আলোকসজ্জা নিয়ন্ত্রণ গবেষণায় একটি প্রধান বাধা হল উপযুক্ত তথ্যের অভাব। লাইট স্টেজ থেকে প্রাপ্ত বিদ্যমান ডেটাসেটগুলি (যেমন, ডিজিটাল এমিলি) উচ্চ-মানের কিন্তু অনমনীয় এবং জেনারেটিভ প্রশিক্ষণের জন্য উপযুক্ত নয়। লুমিহিউম্যান একটি নমনীয় বিকল্প হিসাবে নির্মিত হয়েছে। ভার্চুয়াল ইঞ্জিন রেন্ডারিং ব্যবহার করে, এটি পোর্ট্রেট ভিডিও তৈরি করে যেখানে আলোকসজ্জা প্যারামিটারগুলি (দিক, রঙ, তীব্রতা) সঠিকভাবে জানা থাকে এবং ফ্রেম জুড়ে স্বাধীনভাবে পুনরায় সংযুক্ত করা যেতে পারে। এই "বিল্ডিং ব্লক" পদ্ধতিটি প্রায় অসীম বৈচিত্র্যের আলোকসজ্জা পথ এবং অবস্থার সিমুলেশন করার অনুমতি দেয়, যা একটি মডেলের জন্য আলোকসজ্জার আলাদা উপস্থাপনা শেখার জন্য প্রয়োজনীয় বৈচিত্র্যময় প্রশিক্ষণ তথ্য সরবরাহ করে।

এক নজরে লুমিহিউম্যান ডেটাসেট

  • আকার: >২২০,০০০ ভিডিও সিকোয়েন্স
  • বিষয়বস্তু: প্যারামেট্রিক আলোকসজ্জা সহ মানব পোর্ট্রেট
  • মূল বৈশিষ্ট্য: বৈচিত্র্যময় আলোকসজ্জা গতিপথের জন্য স্বাধীনভাবে সংযুক্তযোগ্য ফ্রেম
  • নির্মাণ: পরিচিত আলোকসজ্জা প্যারামিটার সহ ভার্চুয়াল ইঞ্জিন রেন্ডারিং

2.2 আলোকসজ্জা উপস্থাপনা ও নিয়ন্ত্রণ

জটিল আলোক পরিবহন সমীকরণ মডেলিংয়ের পরিবর্তে, লুমিস্কাল্প্ট একটি সরলীকৃত কিন্তু কার্যকর উপস্থাপনা গ্রহণ করে। একটি ফ্রেমের জন্য আলোকসজ্জার অবস্থা একটি নিম্ন-মাত্রিক ভেক্টর হিসাবে প্যারামিটারাইজড করা হয় যা অনুমিত আলোর উৎসের বৈশিষ্ট্যগুলি এনকোড করে (যেমন, দিকের জন্য গোলাকার স্থানাঙ্ক, তীব্রতার জন্য একটি স্কেলার)। এই উপস্থাপনাটি ইচ্ছাকৃতভাবে পৃষ্ঠের আলবেডো এবং জ্যামিতি থেকে বিচ্ছিন্ন, মডেলের ক্ষমতাকে আলোকসজ্জার প্রভাব শেখার উপর কেন্দ্রীভূত করে। ব্যবহারকারী নিয়ন্ত্রণ এই প্যারামিটার ভেক্টরগুলির একটি ক্রম—একটি "আলোক গতিপথ"—সময়ের সাথে সংজ্ঞায়িত করে প্রয়োগ করা হয়, যা মডেলটি তারপর ভিডিও জেনারেশনের সময় শর্ত হিসাবে ব্যবহার করে।

2.3 প্লাগ-অ্যান্ড-প্লে মডিউল আর্কিটেকচার

লুমিস্কাল্প্টের মূল হল একটি হালকা ওজনের নিউরাল নেটওয়ার্ক মডিউল যা একটি লেটেন্ট ডিফিউশন মডেলের ডিনয়েজিং ইউ-নেটের মধ্যে কাজ করে। এটি দুটি ইনপুট নেয়: টাইমস্টেপ $t$-এ নয়েজি লেটেন্ট কোড $z_t$ এবং টার্গেট ফ্রেমের জন্য আলোকসজ্জা প্যারামিটার ভেক্টর $l_t$। মডিউলের আউটপুট হল একটি ফিচার মড্যুলেশন সিগন্যাল (যেমন, স্পেসিয়াল ফিচার ট্রান্সফরমেশন বা ক্রস-অ্যাটেনশনের মাধ্যমে) যা ইউ-নেটের নির্দিষ্ট স্তরগুলিতে ইনজেক্ট করা হয়। গুরুত্বপূর্ণভাবে, এই মডিউলটি লুমিহিউম্যান ডেটাসেটে পৃথকভাবে প্রশিক্ষিত হয় যখন বেস T2V মডেলের ওজনগুলি হিমায়িত থাকে। এই "প্লাগ-অ্যান্ড-প্লে" কৌশলটি নিশ্চিত করে যে আলোকসজ্জা নিয়ন্ত্রণ ক্ষমতা ব্যয়বহুল সম্পূর্ণ পুনঃপ্রশিক্ষণ ছাড়াই বিদ্যমান মডেলগুলিতে যোগ করা যেতে পারে এবং মডেলের পূর্ব-বিদ্যমান শব্দার্থবিদ্যা এবং শৈলীর জ্ঞানের সাথে হস্তক্ষেপকে ন্যূনতম করে।

3. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

লুমিস্কাল্প্ট লেটেন্ট ডিফিউশন মডেল (LDM) ফ্রেমওয়ার্কের উপর নির্মিত। লক্ষ্য হল একটি কন্ডিশনাল ডিনয়েজিং প্রক্রিয়া শেখা $\epsilon_\theta(z_t, t, c, l_t)$, যেখানে $c$ হল টেক্সট কন্ডিশন এবং $l_t$ হল জেনারেশন স্টেপ $t$-এ আলোকসজ্জা কন্ডিশন। আলোকসজ্জা নিয়ন্ত্রণ মডিউল $M_\phi$ একটি মড্যুলেশন ম্যাপ $\Delta_t = M_\phi(z_t, l_t)$ ভবিষ্যদ্বাণী করার জন্য প্রশিক্ষিত। এই ম্যাপটি বেস ডিনয়েজারের বৈশিষ্ট্যগুলি অভিযোজিত করতে ব্যবহৃত হয়: $\epsilon_\theta^{adapted} = \epsilon_\theta(z_t, t, c) + \alpha \cdot \Delta_t$, যেখানে $\alpha$ একটি স্কেলিং ফ্যাক্টর। প্রশিক্ষণের উদ্দেশ্য হল উত্পন্ন ভিডিও ফ্রেম এবং লুমিহিউম্যান থেকে গ্রাউন্ড-ট্রু রেন্ডার করা ফ্রেমের মধ্যে একটি পুনর্গঠন ক্ষতি কমানো, আলোকসজ্জা কন্ডিশন $l_t$ কে মূল কন্ডিশনিং সিগন্যাল হিসাবে ব্যবহার করে। এটি মডিউলটিকে প্যারামিটার ভেক্টরকে সংশ্লিষ্ট ভিজ্যুয়াল আলোকসজ্জা প্রভাবের সাথে যুক্ত করতে বাধ্য করে।

4. পরীক্ষামূলক ফলাফল ও বিশ্লেষণ

কাগজটি ব্যাপক মূল্যায়নের মাধ্যমে লুমিস্কাল্প্টের কার্যকারিতা প্রদর্শন করে।

4.1 পরিমাণগত মেট্রিক্স

আলোকসজ্জা নিয়ন্ত্রণ ছাড়া বেসলাইন T2V মডেলগুলির বিরুদ্ধে স্ট্যান্ডার্ড ভিডিও কোয়ালিটি মেট্রিক্স (যেমন, FVD, FID-Vid) ব্যবহার করে কর্মক্ষমতা পরিমাপ করা হয়েছিল। আরও গুরুত্বপূর্ণভাবে, আলোকসজ্জা সামঞ্জস্যতা এর জন্য কাস্টম মেট্রিক্স তৈরি করা হয়েছিল, সম্ভবত উদ্দিষ্ট আলোর অবস্থান/তীব্রতা গতিপথ এবং আউটপুট ভিডিওতে ফ্রেম জুড়ে অনুভূত আলোকসজ্জার মধ্যে পারস্পরিক সম্পর্ক পরিমাপ জড়িত। ফলাফলগুলি দেখায় যে লুমিস্কাল্প্ট বেস মডেলের গুণমান বজায় রাখে যখন নির্দিষ্ট আলোকসজ্জা অবস্থার সাথে আনুগত্য উল্লেখযোগ্যভাবে উন্নত করে।

4.2 গুণগত মূল্যায়ন ও ব্যবহারকারী সমীক্ষা

পিডিএফ-এর চিত্র ১ (ধারণাগতভাবে বর্ণিত) উত্পন্ন ফলাফল প্রদর্শন করে। এটি এমন সিকোয়েন্সগুলি চিত্রিত করবে যেখানে একটি আলোর উৎস একটি বিষয়ের চারপাশে মসৃণভাবে চলে—যেমন, একটি মুখের উপর বাম থেকে ডানে—নির্ধারিত পথ অনুসরণ করে সামঞ্জস্যপূর্ণ ছায়া এবং হাইলাইট সহ। ব্যবহারকারী সমীক্ষা সম্ভবত লুমিস্কাল্প্ট আউটপুটগুলিকে আলোকসজ্জার বাস্তবতা, সামঞ্জস্যতা এবং নিয়ন্ত্রণযোগ্যতার জন্য স্ট্যান্ডার্ড মডেলগুলিতে শুধুমাত্র পাঠ্য প্রম্পট ব্যবহার করে প্রচেষ্টার তুলনায় উচ্চতর রেট দিয়েছে (যেমন, "বাম থেকে ডানে চলমান আলো"), যা প্রায়শই ফ্লিকারিং বা শব্দার্থগতভাবে ভুল আলোকসজ্জা তৈরি করে।

4.3 অপসারণ সমীক্ষা

অপসারণ সমীক্ষাগুলি প্রতিটি উপাদানের প্রয়োজনীয়তা নিশ্চিত করেছে: লুমিহিউম্যান ডেটাসেট ছাড়া প্রশিক্ষণ দুর্বল সাধারণীকরণের দিকে নিয়ে যায়; একটি আরও জটিল আলোকসজ্জা উপস্থাপনা (যেমন সম্পূর্ণ HDR এনভায়রনমেন্ট ম্যাপ) ব্যবহার করা নিয়ন্ত্রণের নির্ভুলতা হ্রাস করে; এবং প্লাগ-অ্যান্ড-প্লে মডিউল ব্যবহার করার পরিবর্তে সরাসরি বেস মডেল ফাইন-টিউন করা অন্যান্য জেনারেটিভ ক্ষমতার বিপর্যয়কর বিস্মৃতি ঘটায়।

5. বিশ্লেষণ ফ্রেমওয়ার্ক ও কেস স্টাডি

কেস স্টাডি: একটি নাটকীয় একক সংলাপ দৃশ্য তৈরি করা
লক্ষ্য: একটি ব্যক্তির একক সংলাপ দেওয়ার একটি ভিডিও তৈরি করুন, যেখানে আলোকসজ্জা একটি কঠোর, সাইড-লিট কী লাইট হিসাবে শুরু হয় এবং ধীরে ধীরে নরম হয়ে চারপাশে জড়িয়ে পড়ে যখন আবেগময় সুর আশাবাদী হয়ে ওঠে।

  1. ইনপুট স্পেসিফিকেশন:
    • টেক্সট প্রম্পট: "একটি মধ্যবয়সী অভিনেতা একটি চিন্তাশীল অভিব্যক্তি সহ, একটি ফাঁকা রিহার্সাল রুমে, ক্লোজ-আপ শট।"
    • আলোকসজ্জা গতিপথ: আলোকসজ্জা ভেক্টরগুলির একটি ক্রম যেখানে:
      • ফ্রেম ০-৩০: ক্যামেরা অক্ষ থেকে ~৮০ ডিগ্রিতে আলোর দিক (হার্ড সাইড লাইট), উচ্চ তীব্রতা।
      • ফ্রেম ৩১-৬০: দিক ধীরে ধীরে ~৪৫ ডিগ্রিতে চলে যায়, তীব্রতা কিছুটা হ্রাস পায়।
      • ফ্রেম ৬১-৯০: দিক ~৩০ ডিগ্রিতে পৌঁছায় (নরম ফিল), তীব্রতা আরও কমে যায়, একটি দ্বিতীয় ফিল লাইট প্যারামিটার সূক্ষ্মভাবে বৃদ্ধি পায়।
  2. লুমিস্কাল্প্ট প্রক্রিয়াকরণ: প্লাগ-অ্যান্ড-প্লে মডিউল প্রতিটি ফ্রেমের আলোকসজ্জা ভেক্টর $l_t$ ব্যাখ্যা করে। এটি ডিফিউশন প্রক্রিয়াটিকে মডুলেট করে শুরুতে শক্তিশালী, সংজ্ঞায়িত ছায়া ফেলতে, যা তারপর নরম হয় এবং ভেক্টর পরিবর্তনের সাথে কনট্রাস্ট হ্রাস পায়, একটি ডিফিউজার যোগ করা বা উৎস সরানোর সিমুলেশন করে।
  3. আউটপুট: একটি সামঞ্জস্যপূর্ণ ভিডিও যেখানে আলোকসজ্জার পরিবর্তন দৃশ্যত সুসংগত এবং আখ্যানের চাপকে সমর্থন করে, অভিনেতার চেহারা বা রুমের বিবরণকে প্রভাবিত না করে। এটি শুধুমাত্র পাঠ্যের সাথে অর্জনযোগ্য নয় এমন সুনির্দিষ্ট স্থান-কালগত নিয়ন্ত্রণ প্রদর্শন করে।

6. শিল্প বিশ্লেষকের দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি

লুমিস্কাল্প্ট শুধু ভিডিওর গুণমানের আরেকটি ধাপে ধাপে উন্নতি নয়; এটি হাই-এন্ড সিনেমাটোগ্রাফিকে পণ্যকরণের একটি কৌশলগত পদক্ষেপ। দৃশ্য জেনারেশন থেকে আলোকসজ্জা বিচ্ছিন্ন করে, এটি কার্যকরভাবে এআই ভিডিওর জন্য একটি নতুন "আলোকসজ্জা স্তর" তৈরি করে, ফটোশপের অ্যাডজাস্টমেন্ট লেয়ারের মতো। এটি পেশাদার বিষয়বস্তু তৈরিতে একটি মৌলিক ব্যথার বিন্দুকে সম্বোধন করে যেখানে আলোকসজ্জা সেটআপ সময়, দক্ষতা এবং সম্পদ-নিবিড়। প্রকৃত মূল্য প্রস্তাব হল স্রষ্টাদের—ইন্ডি চলচ্চিত্র নির্মাতা থেকে বিপণন দল পর্যন্ত—মূল দৃশ্য তৈরি হওয়ার পর আলোকসজ্জার উপর পুনরাবৃত্তি করতে সক্ষম করা, একটি প্যারাডাইম শিফট যা ওয়ার্কফ্লো এবং খরচের জন্য ব্যাপক প্রভাব সহ।

যুক্তিগত প্রবাহ ও কৌশলগত অবস্থান

কাগজের যুক্তি বাণিজ্যিকভাবে বিচক্ষণ: একটি লক-ইন ভ্যালু চিহ্নিত করুন (আলোকসজ্জা নিয়ন্ত্রণ) → মৌলিক তথ্য সমস্যার সমাধান করুন (লুমিহিউম্যান) → একটি অ-বিঘ্নিত একীকরণ পথ প্রকৌশল করুন (প্লাগ-অ্যান্ড-প্লে মডিউল)। এটি চিত্রের জন্য কন্ট্রোলনেটের মতো কন্ট্রোল নেটওয়ার্কের সফল প্লেবুককে প্রতিফলিত করে। স্থিতিশীল ডিফিউশন আর্কিটেকচারের উপর নির্মাণ করে, তারা তাৎক্ষণিক প্রযোজ্যতা নিশ্চিত করে। যাইহোক, পোর্ট্রেট আলোকসজ্জার উপর ফোকাস একটি চতুর বিচহেড এবং একটি সীমাবদ্ধতা উভয়ই। এটি একটি পরিচালনাযোগ্য, উচ্চ-প্রভাব ডেটাসেটের অনুমতি দেয় কিন্তু জটিল দৃশ্য আলোকসজ্জার (গ্লোবাল ইলুমিনেশন, ইন্টার-রিফ্লেকশন) কঠোর সমস্যাটি ভবিষ্যতের কাজের জন্য রেখে দেয়। তারা একটি উজ্জ্বল সংস্করণ ১.০ বিক্রি করছে, চূড়ান্ত সমাধান নয়।

শক্তি ও ত্রুটি

শক্তি: প্লাগ-অ্যান্ড-প্লে ডিজাইন হল এর কিলার ফিচার। এটি গ্রহণের বাধাগুলি নাটকীয়ভাবে হ্রাস করে। লুমিহিউম্যান ডেটাসেট, যদিও সিন্থেটিক, একটি বাস্তব গবেষণা ব্লকারের জন্য একটি ব্যবহারিক এবং স্কেলযোগ্য সমাধান। কাগজটি বিশ্বাসযোগ্যভাবে দেখায় যে মডেলটি স্পষ্ট গতিপথ অনুসরণ করে, অস্পষ্ট পাঠ্যের চেয়ে আরও নির্ভরযোগ্য নিয়ন্ত্রণের একটি ফর্ম।

ত্রুটি ও ঝুঁকি: ঘরের হাতি হল সাধারণীকরণ। নিয়ন্ত্রিত পরিবেশে পোর্ট্রেট এক জিনিস; এটি কীভাবে একটি জটিল প্রম্পট পরিচালনা করে যেমন "সন্ধ্যায় একটি বনে একজন নাইট যার বর্মে মশালের আলো ঝিকিমিকি করছে"? সরলীকৃত আলোকসজ্জা মডেল সম্ভবত একাধিক আলোর উৎস, রঙিন আলো বা নন-ল্যামবার্টিয়ান পৃষ্ঠগুলির সাথে ভেঙে পড়ে। একটি নির্ভরতা ঝুঁকিও রয়েছে: এর কর্মক্ষমতা অন্তর্নিহিত T2V মডেলের ক্ষমতার সাথে আবদ্ধ। যদি বেস মডেল একটি সুসংগত নাইট বা বন তৈরি করতে না পারে, কোন আলোকসজ্জা মডিউলই এটি বাঁচাতে পারে না।

কার্যকরী অন্তর্দৃষ্টি

এআই গবেষকদের জন্য: পরবর্তী সীমান্ত হল একটি একক পয়েন্ট লাইট থেকে এনভায়রনমেন্ট ম্যাপ কন্ডিশনিং-এ যাওয়া। আলোকসজ্জাকে আরও শারীরিকভাবে সম্ভাব্য করতে শারীরিক প্রায়রগুলিকে একীভূত করা অন্বেষণ করুন (যেমন, T2V মডেল থেকেই আনুমানিক 3D জ্যামিতি অনুমান), ইনভার্স রেন্ডারিংয়ের অগ্রগতির মতো। বিনিয়োগকারী ও পণ্য ব্যবস্থাপকদের জন্য: এই প্রযুক্তিটি একটি প্রিমিয়াম বৈশিষ্ট্য হিসাবে বিদ্যমান ভিডিও সম্পাদনা স্যুটগুলিতে (অ্যাডোব, ডাভিঞ্চি রিজলভ) একীকরণের জন্য প্রস্তুত। তাত্ক্ষণিক বাজার হল ডিজিটাল মার্কেটিং, সোশ্যাল মিডিয়া কন্টেন্ট এবং প্রি-ভিজ্যুয়ালাইজেশন। পাইলট প্রকল্পগুলি এই উল্লম্বগুলিতে ফোকাস করা উচিত। বিষয়বস্তু স্রষ্টাদের জন্য: পোস্ট-জেনারেশন আলোকসজ্জা নিয়ন্ত্রণ কীভাবে আপনার স্টোরিবোর্ডিং এবং অ্যাসেট ক্রিয়েশন প্রক্রিয়াকে পরিবর্তন করতে পারে তা ধারণা করা শুরু করুন। এআই-জেনারেটেড ভিডিওর জন্য "পোস্টে ঠিক করুন" যুগ অনেকের চিন্তার চেয়ে দ্রুত আসছে।

7. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা

  • বর্ধিত আলোকসজ্জা মডেল: যেকোনো দিক থেকে আরও জটিল, বাস্তবসম্মত আলোকসজ্জার জন্য সম্পূর্ণ HDR এনভায়রনমেন্ট ম্যাপ বা নিউরাল রেডিয়েন্স ফিল্ড (NeRF) অন্তর্ভুক্ত করা।
  • ইন্টারেক্টিভ সম্পাদনা ও পোস্ট-প্রোডাকশন: লুমিস্কাল্প্ট-এর মতো মডিউলগুলিকে NLE (নন-লিনিয়ার এডিটর) এ একীভূত করা যাতে পরিচালকরা জেনারেশনের পরে এআই-জেনারেটেড দৃশ্যগুলিকে গতিশীলভাবে পুনরায় আলোকিত করতে পারেন।
  • ক্রস-মোডাল আলোকসজ্জা স্থানান্তর: একটি একক রেফারেন্স ইমেজ বা ভিডিও ক্লিপ ব্যবহার করে একটি আলোকসজ্জা শৈলী বের করে একটি উত্পন্ন ভিডিওতে প্রয়োগ করা, স্পষ্ট প্যারামিটার নিয়ন্ত্রণ এবং শৈল্পিক রেফারেন্সের মধ্যে ব্যবধান পূরণ করা।
  • পদার্থবিদ্যা-সচেতন প্রশিক্ষণ: প্রশিক্ষণ লুপে মৌলিক রেন্ডারিং সমীকরণ বা ডিফারেনশিয়েবল রেন্ডারার অন্তর্ভুক্ত করা শারীরিক নির্ভুলতা উন্নত করতে, বিশেষ করে হার্ড শ্যাডো, স্পেকুলার হাইলাইট এবং স্বচ্ছতার জন্য।
  • পোর্ট্রেটের বাইরে: পদ্ধতিটিকে সাধারণ 3D দৃশ্য, বস্তু এবং গতিশীল পরিবেশে স্কেল করা, যার জন্য উল্লেখযোগ্যভাবে আরও জটিল ডেটাসেট এবং দৃশ্য বোঝার প্রয়োজন হবে।

8. তথ্যসূত্র

  1. Zhang, Y., Zheng, D., Gong, B., Wang, S., Chen, J., Yang, M., Dong, W., & Xu, C. (2025). LumiSculpt: Enabling Consistent Portrait Lighting in Video Generation. arXiv preprint arXiv:2410.22979v2.
  2. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684-10695).
  3. Blattmann, A., Rombach, R., Ling, H., Dockhorn, T., Kim, S. W., Fidler, S., & Kreis, K. (2023). Align your latents: High-resolution video synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
  4. Zhang, L., Rao, A., & Agrawala, M. (2023). Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 3836-3847). (ControlNet)
  5. Debevec, P., Hawkins, T., Tchou, C., Duiker, H. P., Sarokin, W., & Sagar, M. (2000). Acquiring the reflectance field of a human face. In Proceedings of the 27th annual conference on Computer graphics and interactive techniques (pp. 145-156).
  6. Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2021). Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 65(1), 99-106.
  7. Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1125-1134). (Pix2Pix)