Ukadiriaji wa Mwangaza wa Nje Kwa Kina: Mbinu ya Msingi wa CNN Kutoka kwa Picha Moja ya LDR

Orodha ya Yaliyomo

1. Utangulizi

Kurejesha mwangaza wa eneo kutoka kwa picha moja ni tatizo la msingi lakini lisilo na suluhisho moja katika utambuzi wa kompyuta, lenye umuhimu kwa matumizi kama vile ukweli ulioongezwa (AR), uchoraji wa picha, na uelewa wa eneo. Karatasi "Ukadiriaji wa Mwangaza wa Nje Kwa Kina" inashughulikia changamoto hii hasa kwa maeneo ya nje kwa kupendekeza mbinu ya msingi wa Mtandao wa Neural wa Convolutional (CNN) ya kutabiri mwangaza wa nje wenye Anuwai ya Juu ya Mwangaza (HDR) kutoka kwa picha moja ya Anuwai ya Chini ya Mwangaza (LDR). Ubunifu wa msingi upo katika kuepuka hitaji la kukamata ramani ya mazingira ya HDR moja kwa moja kwa kutumia seti kubwa ya data ya panoramas za LDR na mfumo wa anga wenye msingi wa fizikia kuunda seti ya data ya mafunzo ya bandia ya jozi za vigezo vya picha na mwangaza.

2. Mbinu

Mfuatano uliopendekezwa una hatua kuu mbili: utayarishaji wa seti ya data na mafunzo/utabiri wa CNN.

2.1. Uundaji wa Seti ya Data & Kufaa Mfumo wa Anga

Waandishi wanaepuka ukosefu wa seti kubwa za data zilizounganishwa za LDR-HDR kwa kutumia mkusanyiko mkubwa wa panoramas za nje. Badala ya kutumia panoramas hizo moja kwa moja kama lengo la HDR, wanafaa vigezo vya mfumo wa anga wa Hošek-Wilkie kwenye maeneo ya anga yanayoonekana ndani ya kila panorama. Mfumo huu, unaowakilishwa na seti nyepesi ya vigezo $\Theta = \{\theta_{sun}, \theta_{atm}, ...\}$, unaelezea msimamo wa jua, hali ya anga, na uchafuzi wa hewa. Hatua hii inabana taarifa tata za mwangaza wa duara kamili kuwa vekta yenye mwelekeo mdogo, yenye maana ya kifizikia ambayo inaweza kufundishwa kwa CNN. Picha zilizokatwa, zenye uwanja mdogo wa mtazamo, hutolewa kutoka kwa panoramas ili kutumika kama pembejeo ya CNN, na kuunda jozi za mafunzo $(I_{LDR}, \Theta)$.

2.2. Muundo wa CNN & Mafunzo

CNN inafunzwa kufanya urejeshaji kutoka kwa picha ya pembejeo ya LDR hadi vekta ya vigezo vya mfumo wa Hošek-Wilkie $\Theta$. Mtandao hujifunza uchoraji tata kati ya viashiria vya kuona kwenye picha (rangi ya anga, dalili za msimamo wa jua, vivuli, mtindo wa jumla wa eneo) na hali za msingi za kifizikia za mwangaza. Wakati wa majaribio, ikitolewa picha mpya ya LDR, mtandao hutabiri $\hat{\Theta}$. Vigezo hivi vinaweza kisha kutumiwa na mfumo wa Hošek-Wilkie kuunda ramani kamili ya mazingira ya HDR, ambayo baadaye hutumiwa kwa kazi kama vile uingizaji wa vitu vya uwongo vinavyoonekana kama vya kweli.

3. Maelezo ya Kiufundi & Uundaji wa Kihisabati

Mfumo wa anga wa Hošek-Wilkie ndio kiini cha mbinu hii. Ni mfumo wa anga wa wigo unaokokotoa mnururisho $L(\gamma, \alpha)$ kwa sehemu fulani ya anga iliyofafanuliwa na pembe yake ya zeniti $\gamma$ na pembe ya zeniti ya jua $\alpha$. Mfumo huu unajumuisha makadirio kadhaa ya kimajaribio ya mtawanyiko wa anga. Mchakato wa kufaa unahusisha kupunguza kosa kati ya pato la mfumo na saizi za anga za panorama zilizozingatiwa ili kupata seti bora ya vigezo $\Theta^*$:

$$\Theta^* = \arg\min_{\Theta} \sum_{p \in SkyPixels} || L_{model}(p; \Theta) - I_{panorama}(p) ||^2$$

Hii $\Theta^*$ iliyopatikana hutumika kama ukweli wa msingi wa kufundisha CNN. Kazi ya hasara ya kufundisha CNN kwa kawaida ni hasara ya urejeshaji kama Kosa la Mraba la Wastani (MSE) au aina thabiti kama hasara ya Smooth L1 kati ya vigezo vilivyotabiriwa $\hat{\Theta}$ na ukweli wa msingi $\Theta^*$.

4. Matokeo ya Majaribio & Tathmini

4.1. Tathmini ya Kiasi

Karatasi inatathmini mbinu hii kwenye seti ya data ya panorama na seti tofauti ya ramani za mazingira za HDR zilizokamatwa. Vipimo huenda vijajumuisha kosa la pembe katika msimamo uliotabiriwa wa jua, kosa katika vigezo vya mwangaza, na vipimo vya msingi wa picha kwa vitu vilivyochorwa. Waandishi wanasema mbinu yao "inazidi kwa kiasi kikubwa suluhisho za zamani," ambazo zingejumuisha mbinu zinazotegemea viashiria vilivyotengenezwa kwa mkono kama vivuli [26] au mtengano wa picha ya ndani [3, 29].

4.2. Matokeo ya Ubora & Uingizaji wa Kitu cha Uwongo

Uthibitishaji wenye nguvu zaidi ni uingizaji wa vitu vya uwongo vinavyoonekana kama vya kweli kwenye picha za majaribio. Kielelezo 1 kwenye PDF kinaonyesha kimawazo mfuatano huu: picha ya pembejeo ya LDR inapelekwa kwa CNN, ambayo hutoa vigezo vya anga vinavyotumiwa kujenga upya ramani ya mazingira ya HDR. Kitu cha uwongo kisha kinachorwa chini ya mwangaza huu uliokadiriwa na kuunganishwa kwenye picha asili. Matokeo ya mafanikio yanaonyesha mwelekeo wa mwangaza, rangi, na ukali unaolingana kati ya kitu cha uwongo na eneo la kweli, ikithibitisha usahihi wa mwangaza uliokadiriwa.

5. Mfumo wa Uchambuzi: Uelewa wa Msingi & Mtiririko wa Mantiki

Uelewa wa Msingi: Ujanja wa karatasi hii ni njia yake nzuri ya kuzunguka inayozingatia data. Badala ya kushughulikia kazi isiyowezekana ya kukusanya jozi nyingi za ulimwengu halisi za LDR-HDR, waandishi wanatumia kwa busara panoramas zilizopo za LDR kwa kutumia mfumo wa kifizikia wenye vigezo kama "daraja" kuunda usimamizi unaowezekana wa HDR. Hii inakumbusha mabadiliko ya mfano yaliyowezeshwa na kazi kama CycleGAN, ambayo ilijifunza uchoraji kati ya nyanja bila mifano iliyounganishwa. Hapa, mfumo wa Hošek-Wilkie unatenda kama mwalimu mwenye ujuzi wa fizikia, ukibana mwangaza tata kuwa uwakilishi unaoweza kujifunza.

Mtiririko wa Mantiki: Mantiki ni sahihi lakini inategemea dhana muhimu: kwamba mfumo wa Hošek-Wilkie ni sahihi na wa jumla vya kutosha kuwakilisha hali mbalimbali za mwangaza katika panoramas za mafunzo. Upendeleo wowote wa kimfumo katika mfumo au mchakato wa kufaa unaingizwa moja kwa moja kwenye "ukweli wa msingi" wa CNN, na hivyo kuweka kikomo cha juu cha utendaji wake. Mtiririko ni: Panorama (LDR) -> Kufaa Mfumo -> Vigezo (Ukweli Mfupi) -> Mafunzo ya CNN -> Picha Moja -> Utabiri wa Vigezo -> Uundaji wa HDR. Ni mfano wa kawaida wa "kujifunza kinyume cha mfumo wa mbele."

Nguvu & Kasoro: Nguvu kuu ni utendaji na uwezo wa kuongezeka. Mbinu hii inaweza kufundishwa na hutoa matokeo ya hali ya juu kwa wakati wake. Hata hivyo, kasoro zake ni za asili katika muundo wake. Kwanza, kimsingi imewekewa kikomo kwa hali za anga safi, mchana zinazotengenezwa na Hošek-Wilkie. Anga yenye mawingu, hali ya hewa kali, au athari za mabonde ya mijini zenye mwangaza wa moja kwa moja tata hazishughulikiwi vyema. Pili, inahitaji anga inayoonekana kwenye picha ya pembejeo—kikomo kikubwa kwa picha nyingi zilizotengenezwa na watumiaji. Mbinu hii, kama ilivyoelezewa, ni kirejeshaji cha mfumo wa anga, sio kikadiriaji kamili cha mwangaza wa eneo.

Uelewa Unaotumika: Kwa watendaji, kazi hii ni darasa kuu katika kutumia usimamizi wa moja kwa moja. Hitimisho ni kuangalia kila wakati mali zilizopo za data (kama vile hifadhidata za panorama) na ujuzi wa nyanja (kama vile miundo ya kifizikia) ambayo inaweza kuunganishwa kuunda ishara za mafunzo. Mabadiliko ya baadaye ya wazo hili, kama inavyoonekana katika kazi za baadaye kutoka kwa Google Research na MIT, ni kuondoka kwenye miundo ya anga yenye vigezo kuelekea utabiri wa ramani ya mazingira ya HDR isiyo na vigezo, kuanzia mwanzo hadi mwisho, kwa kutumia miundo yenye nguvu zaidi (kama vile GANs au NeRFs) na seti kubwa zaidi, zenye anuwai za data, kwa uwezekano wa kujumuisha taarifa za muda kutoka kwa video.

6. Mtazamo wa Matumizi & Mwelekeo wa Baadaye

Matumizi ya haraka yako katika ukweli ulioongezwa kwa uingizaji wa vitu vya uwongo vya nje vinavyoweza kuaminiwa katika upigaji picha na filamu (kwa mfano, kwa athari za kuona). Mwelekeo wa baadaye ni pamoja na:

Kupanua Miundo ya Mwangaza: Kuunganisha miundo ya anga yenye mawingu, machweo, na taa za usiku za bandia ili kushughulikia anuwai pana ya hali.
Ukadiriaji Bila Anga: Kukuza mbinu ambazo zinaweza kutambua mwangaza kutoka kwa ndege za chini, vivuli, na kivuli cha vitu wakati anga imefunikwa, labda kwa kujumuisha ukadiriaji wa jiometri wazi.
Mwangaza Unaobadilika: Kupanua mbinu hii kwa video kwa kadiriaji la mwangaza unaobadilika kwa wakati, muhimu kwa AR thabiti katika maeneo yenye mabadiliko.
Unganishaji na Uchoraji wa Neural: Kuunganisha ukadiriaji wa mwangaza na uwanja wa mnururisho wa neural (NeRF) kwa ujenzi wa pamoja wa eneo na uwekaji upya wa taa, mwelekeo unaofuatwa kikamilifu na maabara kama vile UC Berkeley na NVIDIA.
Uboreshaji wa Kwenye Kifaa: Miundo nyepesi ya mtandao kwa ukadiriaji wa wakati halisi kwenye vifaa vya rununu, kuwezesha matumizi ya AR kwa watumiaji.

7. Marejeo

Hold-Geoffroy, Y., Sunkavalli, K., Hadap, S., Gambaretto, E., & Lalonde, J. F. (2018). Deep Outdoor Illumination Estimation. arXiv preprint arXiv:1611.06403.
Hošek, L., & Wilkie, A. (2012). An analytic model for full spectral sky-dome radiance. ACM Transactions on Graphics (TOG), 31(4), 1-9.
Barron, J. T., & Malik, J. (2015). Shape, illumination, and reflectance from shading. IEEE transactions on pattern analysis and machine intelligence, 37(8), 1670-1687.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European conference on computer vision (pp. 405-421). Springer, Cham.
Google AI Blog: "Looking to Lift: A New Model for Estimating Outdoor Illumination" (Mwakilishi wa utafiti wa baadaye wa tasnia).