Orodha ya Yaliyomo
1. Utangulizi
Urejeshaji wa picha ya mtu ni kazi muhimu katika upigaji picha wa hesabu na uhariri wa picha, inayolenga kuunganisha kwa ustadi mhusika wa mbele katika mandhari mpya. Njia za jadi mara nyingi hazizingatii mwingiliano tata wa mwangaza, na kusababisha matokeo yasiyo ya kawaida. Karatasi hii inatangaza Urejeshaji wa Mwangaza, mfumo mpya unaotegemea usambazaji unaounda na kuhamisha hali za mwangaza kutoka mandharini hadi kwenye picha ya mtu ya mbele, na kufikia uhalisi bora wa picha.
2. Njia ya Utafiti
Mfumo uliopendekezwa unafanya kazi katika hatua tatu kuu, ukizidi kulinganisha rangi tu ili kufikia mwunganisho wa kweli wa mwangaza.
2.1 Moduli ya Uwakilishi wa Mwangaza
Moduli hii hutoa ishara za mwangaza zisizo wazi (k.m., mwelekeo, ukali, halijoto ya rangi) kutoka kwa picha moja lengwa ya mandhari. Inaweka ishara hizi katika uwakilishi wa mwangaza wa siri $L_{bg}$ ambao hutumika kama ishara ya kudhibiti kwa mfumo wa usambazaji. Hii inazuia hitaji la ramani wazi za mazingira za HDR wakati wa utambuzi.
2.2 Mtandao wa Kulinganisha
Ili kuweka vipengele vya mwangaza vilivyojifunza katika nafasi yenye maana ya kimwili, mtandao wa kulinganisha unaletwa. Unalinganisha vipengele vya mwangaza vilivyotokana na picha $L_{bg}$ na vipengele vilivyotolewa kutoka kwa ramani kamili za mazingira za panorama $L_{env}$ wakati wa mafunzo. Muunganisho huu unahakikisha mfano unajifunza uelewa thabiti na unaoweza kujumlishwa wa mwangaza wa eneo, kama ilivyothibitishwa na seti za data kama vile Laval Indoor HDR.
2.3 Mfumo wa Uzalishaji wa Data Bandia
Uvumbuzi mkuu ni mfumo wa kuiga data unaozalisha jozi za mafunzo zenye ubora wa juu na tofauti. Huunganisha wahusika wa kibinadamu kutoka kwa seti za data zilizopo (k.m., FFHQ) kwenye mandhari mbalimbali zenye mwangaza unaojulikana, na kuunda data zilizounganishwa {mbele, mandhari, ukweli wa urejeshaji} bila kuhitaji kukamata ghali kwenye hatua ya mwangaza. Hii inashughulikia kikwazo kikuu cha data katika uwanja huu.
3. Maelezo ya Kiufundi
Mfumo huu unajengwa juu ya mfumo wa usambazaji wa siri uliofunzwa awali (LDM). Mchakato msingi wa uzalishaji unaongozwa na hali ya mwangaza. Mchakato wa kuondoa kelele kwa wakati $t$ unaweza kuandikwa kama:
$\epsilon_\theta(z_t, t, \tau(L_{bg}), \tau(mask))$
ambapo $z_t$ ni siri yenye kelele, $\epsilon_\theta$ ni kiondoa kelele cha UNet, $\tau(\cdot)$ inamaanisha viweka msimbo vya kudhibiti, $L_{bg}$ ni uwakilishi wa mwangaza wa mandhari, na $mask$ ni maski ya alfa ya mbele. Mtandao wa kulinganisha unaboresha hasara ya uthabiti wa kipengele $\mathcal{L}_{align} = ||\phi(L_{bg}) - \psi(L_{env})||_2$, ambapo $\phi$ na $\psi$ ni mitandao ya makadirio.
4. Majaribio na Matokeo
Njia hii ilitathminiwa ikilinganishwa na urejeshaji wa kisasa (k.m., DoveNet, S2AM) na misingi ya kubadilisha mwangaza. Vipimo vya kiasi (PSNR, SSIM, LPIPS, FID) na masomo ya watumiaji kwa uthabiti vilipanga Urejeshaji wa Mwangaza kuwa ya juu kabisa kwa uhalisi wa kuona na uthabiti wa mwangaza.
Uchambuzi wa Kielelezo 1: Kielelezo cha 1 cha karatasi kinaonyesha kwa usahihi uwezo wa mfumo. Kinaonyesha mifano minne ya ulimwengu halisi ambapo muunganisho wa moja kwa moja (mhusika aliowekwa kwenye mandhari) unaonekana usiofaa kwa sababu ya kutolingana kwa mwelekeo wa mwangaza na mahali pa vivuli. Kinyume chake, matokeo ya mfumo yanabadilisha mwangaza wa mhusika kwa uaminifu: rangi za ngozi huzoea rangi ya mazingira, miale na vivuli huwekwa upya ili kufanana na chanzo kipya cha mwanga, na muunganisho wote unaonekana kama uhalisi wa picha.
5. Mfumo wa Uchambuzi: Uelewa wa Msingi na Ukosoaji
Uelewa wa Msingi: Uvumbuzi wa msingi wa karatasi hii ni kutambua kwamba urejeshaji wa kweli ni tatizo la kubadilisha mwangaza lililofichwa. Wakati kazi za awali kama vile CycleGAN (Zhu et al., 2017) zilifanikiwa katika kuhamisha mtindo bila kuunganishwa, zilitazama mwangaza kama mtindo wa rangi tu. Kazi hii inatambua kwa usahihi mwelekeo wa mwangaza, kutupa kivuli, na miale ya kipekee kama matukio ya jiometri na ya kimwili ambayo lazima yaundwe kwa uwazi, sio tu kufananishwa kwa takwimu. Inatumia kwa busara kanuni za muundo za mifumo ya usambazaji ili kutatua tatizo hili la kinyume lisilo na suluhisho la pekee.
Mtiririko wa Mantiki: Mfumo wa hatua tatu una mantiki nzuri. 1) Tambua mwangaza kutoka kwa picha (tatizo gumu). 2) Weka utambuzi huo katika uwakilishi unaojulikana, kamili (ramani za panorama) wakati wa mafunzo ili kuhakikisha uwezekano wa kimwili. 3) Zalisha data nyingi za mafunzo ili kumfundisha mfumo uhusiano huu mgumu. Ni mkakati wa utafiti wa "fafanua, linganisha, ongeza ukubwa" uliotekelezwa vyema.
Nguvu na Kasoro: Nguvu kuu ni utendaji wake—inafanya kazi na picha moja ya mandhari, faida kubwa ikilinganishwa na njia zinazohitaji panorama za HDR. Mfumo wa data bandia ni hatua bora ya kukuza ukubwa. Hata hivyo, kasoro iko katika utata wake: kama mfumo mnene wa usambazaji, ni kisanduku cheusi. Hatupati mfumo wa mwangaza unaoweza kufasiriwa (k.m., vekta ya mgawo wa 3D SH) kama matokeo, na hii inapunguza matumizi yake katika mifumo ya michoro inayofuata. Pia inaweza kukabiliana na shida kwa tofauti kali za mwangaza au nyenzo zenye miale nyingi, ambazo ni matatizo ya kawaida kwa mifumo ya uzalishaji.
Uelewa Unaoweza Kutekelezwa: Kwa timu za bidhaa, hii ni API tayari kwa ajili ya kuunganishwa kwenye zana za hali ya juu za uhariri wa picha. Kwa watafiti, wakati ujao ni wazi: 1) Tenganisha msimbo wa mwangaza wa siri kuwa vigezo vinavyoweza kufasiriwa (mwelekeo, ukali, upole). 2) Panua kwa video kwa ajili ya uthabiti wa muda—changamoto kubwa lakini muhimu. 3) Shirikiana na jamii ya NeRF/urejeshaji wa 3D. Lengo la mantiki sio tu kurejesha safu ya 2D, bali kuweka mali ya 3D iliyobadilishwa mwangaza kwenye eneo, maono yanayoshirikiwa na miradi kutoka MIT CSAIL na Google Research.
6. Matumizi ya Baadaye na Mwelekeo
- Uhalisia wa Kuongezwa na Mtandao: Urejeshaji wa papo hapo wa mkondo wa kamera ya moja kwa moja na mazingira ya mtandao kwa ajili ya uzoefu wa kuzama.
- Uchakataji wa Baada ya Filamu na Video: Marekebisho ya mwangaza yaliyotengenezwa kiotomatiki na thabiti kwa wahusika waliounganishwa kwenye mandhari za CGI, na kupunguza sana gharama za VFX.
- Kujaribu Mtandaoni na Mitindo: Kutumia mwangaza wa kawaida na vivuli kwa bidhaa au nguo zilizounganishwa kwenye picha za mtumiaji.
- Uwepo wa Mbali na Mkutano wa Video: Kusawazisha hali za mwangaza kwa washiriki wote ili kuunda nafasi ya mkutano ya mtandao yenye mshikamano.
- Mwelekeo wa Utafiti: Uunganishaji na mifumo ya uzalishaji inayotambua 3D (k.m., 3D Gaussian Splatting) ili kufikia ubadilishaji wa mwangaza na kutupa kivuli vinavyolingana na mtazamo.
7. Marejeo
- Ren, M., Xiong, W., Yoon, J. S., et al. (2024). Relightful Harmonization: Lighting-aware Portrait Background Replacement. arXiv:2312.06886v2.
- Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE ICCV.
- Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. IEEE CVPR.
- Zhang, L., et al. (2021). S2AM: A Lightweight Network for Image Harmonization. ACM MM.
- Debevec, P. (2012). The Light Stage and its Applications to Photoreal Digital Actors. SIGGRAPH Courses.
- Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.