Yaliyomo
1. Utangulizi
Kuenea kwa vifaa vya rununu kumesababisha mahitaji makubwa kwa matumizi ya hali ya juu ya Augmented Reality (AR), kama vile uboreshaji wa eneo lenye uhalisia wa picha na uwepo wa mbali. Kiini cha matumizi kama haya ni ukadiriaji wa taa wa hali ya juu na unaolingana kutoka kwa picha moja au mlolongo wa video. Kazi hii ni changamoto hasa katika mazingira ya ndani kutokana na mwingiliano tata wa jiometri anuwai, nyenzo, na vyanzo vya mwanga, ambayo mara nyingi huhusisha mwingiliano wa masafa marefu na vizuizi.
Mawasiliano kutoka kwa vifaa vya watumiaji kwa kawaida ni picha chache za Low Dynamic Range (LDR) zenye uwanja mdogo wa mtazamo (mfano, zinazopakia takriban 6% tu ya eneo la panorama). Changamoto kuu, basi, ni kudhania habari ya High Dynamic Range (HDR) iliyokosekana na kukisia sehemu zisizoonekana za eneo (kama vile vyanzo vya mwanga nje ya fremu) ili kuzalisha muundo kamili na unaolingana wa taa. Zaidi ya hayo, kwa mawasiliano ya video, utabiri lazima ubaki thabiti kwa muda ili kuepuka mabadiliko ya kuwashwa/kuzimwa au yasiyofaa katika viunganisho vya AR.
Makala hii inawasilisha mfumo wa kwanza ulioundwa kufikia ukadiriaji wa taa za ndani za HDR zinazolingana kwa nafasi na muda. Inatabiri taa katika nafasi yoyote ya picha kutoka kwa picha moja ya LDR na ramani ya kina, na inapopewa mlolongo wa video, inaboresha utabiri hatua kwa hatua huku ikidumisha mshikamano laini wa muda.
2. Njia
Mfumo unaopendekezwa ni mfumo wa kina wa kujifunza wenye sehemu nyingi na unaotokana na fizikia.
2.1. Kiasi cha Taa cha Spherical Gaussian (SGLV)
Uwakilishi wa msingi ni Kiasi cha Taa cha Spherical Gaussian (SGLV). Badala ya kutabiri ramani moja ya mazingira kwa eneo lote, njia hiyo hurekebisha kiasi cha 3D ambapo kila voxel ina vigezo vya seti ya Spherical Gaussians (SGs) zinazowakilisha usambazaji wa taa wa ndani. Spherical Gaussians ni makadirio mazuri ya taa changamano, yanayofafanuliwa kama: $G(\mathbf{v}; \mathbf{\mu}, \lambda, a) = a \cdot e^{\lambda(\mathbf{\mu} \cdot \mathbf{v} - 1)}$ ambapo $\mathbf{\mu}$ ni mhimili wa lobe, $\lambda$ ni ukali wa lobe, na $a$ ni amplitude ya lobe. Uwakilishi huu wa kiasi ni muhimu kwa kufikia ulinganifu wa nafasi.
2.2. Muundo wa 3D Encoder-Decoder
Mtandao wa 3D encoder-decoder uliobinafsishwa huchukua picha ya LDR ya mawasiliano na ramani yake inayolingana ya kina (iliyopangwa kwa nafasi ya kawaida ya 3D) na kutoa SGLV. Encoder hutoa vipengele vya kiwango anuwai, huku decoder ikiboresha sampuli ili kurekebisha kiasi cha usahihi wa juu.
2.3. Ufuatiliaji wa Miale wa Kiasi kwa Ulinganifu wa Nafasi
Ili kutabiri ramani ya mazingira kwa mtazamo maalum (mfano, kwa kuingiza kitu cha kufikirika), mfumo hufanya ufuatiliaji wa miale wa kiasi kupitia SGLV. Miale hutupwa kutoka kwa eneo lengwa, na mchango wa taa kwenye kila mwelekeo wa miale hujumuishwa kwa kuchukua sampuli na kuchanganya vigezo vya SG kutoka kwa voxel zilizokatwa. Mchakato huu unaotokana na fizikia huhakikisha kuwa utabiri wa taa unalingana kijiometri katika maeneo tofauti ya eneo.
2.4. Mtandao wa Kuchanganya Mseto kwa Ramani za Mazingira
Vigezo vya SG vya mbichi kutoka kwa ufuatiliaji wa miale huingizwa kwenye mtandao wa kuchanganya mseto. Mtandao huu huboresha makadirio ya taa ya kiwango cha chini kuwa ramani ya kina ya HDR ya mazingira yenye usahihi wa juu, ikirejesha maelezo mazuri kama vile mionekano kutoka kwa nyuso zinazoonekana.
2.5. Safu ya Monte-Carlo ya Uchoraji Ndani ya Mtandao
Uvumbuzi muhimu ni safu ya Monte-Carlo ya uchoraji ndani ya mtandao. Safu hii huchukua ramani ya mazingira ya HDR iliyotabiriwa na muundo wa 3D wa kitu cha kufikirika, kuichora kwa ufuatiliaji wa njia, na kulinganisha matokeo na uchoraji wa ukweli wa msingi. Gradient kutoka kwa hasara hii yenye uhalisia wa picha hurudishwa nyuma kupitia mfuatano wa utabiri wa taa, ikiboresha moja kwa moja kwa lengo la mwisho la uingizaji wa kitu chenye uhalisia.
2.6. Mitandao ya Neural ya Kurudia kwa Ulinganifu wa Muda
Kwa mawasiliano ya mlolongo wa video, mfumo hujumuisha Mitandao ya Neural ya Kurudia (RNNs). RNNs hukusanya habari kutoka kwa fremu zilizopita, ikiruhusu mfumo kuboresha SGLV hatua kwa hatua kadiri eneo linavyoonekana zaidi. Muhimu zaidi, zinazindisha mabadiliko laini kati ya utabiri katika fremu zinazofuatana, kukomesha mwenge na kuhakikisha mshikamano wa muda.
3. Uboreshaji wa Seti ya Data: OpenRooms
Kufundisha muundo kama huo wenye njaa ya data kunahitaji seti kubwa ya data ya maeneo ya ndani yenye taa ya HDR ya ukweli wa msingi. Waandishi waliboresha kwa kiasi kikubwa seti ya data ya umma ya OpenRooms. Toleo lililoboreshwa linajumuisha takriban ramani 360,000 za mazingira za HDR kwenye usahihi wa juu zaidi na mlolongo 38,000 wa video, yote yakiwa yamechorwa kwa kutumia ufuatiliaji wa njia ulioharakishwa na GPU kwa usahihi wa kimwili. Seti hii ya data ni mchango mkubwa kwa jamii.
Takwimu za Seti ya Data
360K Ramani za Mazingira za HDR
38K Mlolongo wa Video
Ukweli wa Msingi Uliochorwa kwa Njia
4. Majaribio na Matokeo
4.1. Usanidi wa Majaribio
Mfumo ulitathminiwa dhidi ya njia za kisasa za ukadiriaji wa taa kutoka kwa picha moja (mfano, [Gardner et al. 2017], [Song et al. 2022]) na za video. Vipimo vilijumuisha vipimo vya kawaida vya picha (PSNR, SSIM) kwenye vitu vilivyochorwa, pamoja na vipimo vya mtazamo (LPIPS) na masomo ya watumiaji ili kutathmini uhalisia wa picha.
4.2. Matokeo ya Kiasi
Njia iliyopendekezwa ilifanya vizuri zaidi kuliko misingi yote katika ulinganisho wa kiasi. Ilipata alama za juu za PSNR na SSIM kwa uchoraji wa vitu vya kufikirika, ikionyesha utabiri sahihi zaidi wa taa. Alama za kipimo cha mtazamo (LPIPS) pia zilikuwa bora, zikipendekeza kuwa matokeo yalikuwa yenye uhalisia wa picha zaidi kwa waangalizi binadamu.
4.3. Matokeo ya Ubora na Ulinganisho wa Kuona
Matokeo ya ubora, kama yanavyopendekezwa kwenye Mchoro 1 wa PDF, yanaonyesha faida kubwa:
- Kurejesha Vyanzo vya Mwanga Visivyoonekana: Njia hiyo inakisia kwa mafanikio uwepo na sifa za vyanzo vya mwanga nje ya uwanja wa mtazamo wa kamera.
- Mionekano ya kina ya Uso: Ramani za mazingira zilizotabiriwa zina mionekano kali na sahihi ya nyuso zinazoonekana za chumba (kuta, samani), ambazo ni muhimu kwa kuchora vitu vya kioo na vya kipekee.
- Ulinganifu wa Nafasi: Vitu vya kufikirika vilivyoingizwa katika maeneo tofauti katika eneo moja vinaonyesha taa inayolingana na jiometri ya ndani na mwanga wa ulimwengu.
- Ulainifu wa Muda: Katika mlolongo wa video, taa kwenye vitu vilivyoingizwa hubadilika kwa laini kadiri kamera inavyosonga, bila kasoro za kuwashwa/kuzimwa au mwenge zinazojulikana katika njia za fremu kwa fremu.
4.4. Uchunguzi wa Uondoaji
Uchunguzi wa uondoaji ulithibitisha umuhimu wa kila sehemu:
- Kuondoa SGLV na ufuatiliaji wa miale wa kiasi kulisababisha utabiri usio na ulinganifu wa nafasi.
- Kukosa safu ya Monte-Carlo ya uchoraji ndani ya mtandao kulisababisha uingizaji wa vitu usio na uhalisia wa picha, licha ya vipimo vizuri vya ramani ya mazingira.
- Kuzima RNNs kwa usindikaji wa video kulisababisha mwenge unaoonekana wa muda.
5. Maelezo ya Kiufundi na Uundaji wa Hisabati
Kazi ya hasara ni lengo lenye masharti mengi: $\mathcal{L} = \mathcal{L}_{env} + \alpha \mathcal{L}_{render} + \beta \mathcal{L}_{temp}$
- $\mathcal{L}_{env}$: Hasara ya L2 kati ya ramani za mazingira za HDR zilizotabiriwa na za ukweli wa msingi.
- $\mathcal{L}_{render}$: Hasara ya uchoraji yenye uhalisia wa picha kutoka kwa safu ya Monte-Carlo ndani ya mtandao. Hii inahesabiwa kama tofauti kati ya kitu cha kufikirika kilichochorwa kwa kutumia taa iliyotabiriwa na uchoraji wa ukweli wa msingi uliochorwa kwa njia.
- $\mathcal{L}_{temp}$: Hasara ya lainifu ya muda inayotumika kwa vigezo vya SGLV katika fremu zinazofuatana katika mlolongo wa video, inayozindishwa na RNNs.
6. Mfumo wa Uchambuzi: Uelewa wa Msingi & Mtiririko wa Kimantiki
Uelewa wa Msingi: Uvumbuzi wa msingi wa makala sio tu mtandao bora wa neural kwa ramani za mazingira; ni utambuzi kwamba taa ni sifa ya uwanja wa 3D, sio muundo wa 2D unaotegemea mtazamo. Kwa kubadilisha matokeo kutoka panorama ya 2D hadi Kiasi cha Taa cha Spherical Gaussian (SGLV) cha 3D, waandishi wanasuluhisha tatizo la ulinganifu wa nafasi kwenye mzizi wake. Hii ni mruko wa dhana sawa na mabadiliko kutoka kwa uchoraji unaotegemea picha hadi uwanja wa mionzi ya neural (NeRF) [Mildenhall et al. 2020]—inahamisha uwakilishi ndani ya nafasi ya asili ya 3D ya eneo. Kichoraji cha Monte-Carlo ndani ya mtandao ni hatua ya pili ya ustadi, ikiumba uhusiano wa moja kwa moja, unaotegemea gradient, kati ya makadirio ya taa na kipimo cha mwisho cha mafanikio: uhalisia wa picha katika muundo wa AR.
Mtiririko wa Kimantiki: Mantiki ya usanidi ni ya sababu isiyo na dosari. 1) Uhusiano wa 3D: Mawasiliano (LDR + kina) huchanganywa kuwa kiasi cha vipengele vya 3D. 2) Urekebishaji wa Taa wa Kiasi: Decoder hutoa SGLV—muundo wa taa unaotambua nafasi. 3) Fizikia Inayoweza Kutofautishwa: Ufuatiliaji wa miale wa kiasi huchunguza muundo huu kwa mtazamo wowote, kuhakikisha ulinganifu wa nafasi kwa ujenzi. 4) Uboreshaji wa Muonekano & Uboreshaji wa Moja kwa Moja: Mtandao wa 2D unaongeza maelezo ya masafa ya juu, na safu ya Monte-Carlo huboresha moja kwa moja kwa ubora wa mwisho wa uchoraji. 5) Ujumuishaji wa Muda: Kwa video, RNNs hufanya kazi kama benki ya kumbukumbu, ikiboresha SGLV kwa muda na kuchuja chini ya matokeo kwa lainifu. Kila hatua inashughulikia udhaifu maalum wa sanaa ya awali.
7. Nguvu, Kasoro, na Ufahamu Unaoweza Kutekelezwa
Nguvu:
- Uwakilishi wa Msingi: SGLV ni uwakilishi mzuri na wenye nguvu ambao utaathiri kazi za baadaye zaidi ya ukadiriaji wa taa.
- Uboreshaji wa Mwisho-hadi-Mwisho kwa Kazi: Kichoraji ndani ya mtandao ni mfano mzuri wa muundo wa hasara maalum ya kazi, kusonga zaidi ya hasara za wakala (kama L2 kwenye ramani za mazingira) ili kuboresha kwa lengo halisi.
- Suluhisho la Kina: Inashughulikia matatizo ya picha moja na video ndani ya mfumo mmoja, ikishughulikia ulinganifu wa nafasi NA wa muda—mchanganyiko nadra.
- Mchango wa Rasilimali: Seti ya data iliyoboreshwa ya OpenRooms ni mali kubwa kwa jamii ya utafiti.
Kasoro & Maswali Muhimu:
- Utegemezi wa Kinamo: Njia hiyo inahitaji ramani ya kina. Ingawa sensorer za kina ni za kawaida, utendaji kwenye mawasiliano ya RGB ya monocular haujulikani wazi. Hii inapunguza utumiaji kwa vyombo vya habari vya zamani au vifaa bila kuhisi kina.
- Gharama ya Hesabu: Mafunzo yanahusisha ufuatiliaji wa njia. Utabiri unahitaji ufuatiliaji wa miale wa kiasi. Hii sio suluhisho nyepesi la rununu bado. Makala hayasemi chochote kuhusu kasi ya utabiri au ukandamizaji wa muundo.
- Ujumuishaji kwa Data ya "Katika Ulimwengu Halisi": Muundo umefunzwa kwenye seti ya data ya bandia, iliyochorwa kwa njia (OpenRooms). Utendaji wake kwenye picha halisi za rununu zenye kelele, zisizochorwa vizuri—ambazo mara nyingi zinakiuka dhana za kimwili za ufuatiliaji wa njia—bado ni swali la thamani kubwa kwa utumiaji wa AR.
- Utata wa Nyenzo: Kama kazi zote za uchoraji kinyume, ukadiriaji wa taa umechanganyikiwa na ukadiriaji wa nyenzo za uso. Mfumo unadhani jiometri inayojulikana au iliyokadiriwa kwa kiwango cha chini lakini hausuluhishi wazi nyenzo, kikikikizu usahihi katika maeneo changamano, yasiyo ya Lambertian.
Ufahamu Unaoweza Kutekelezwa:
- Kwa Watafiti: Dhana ya SGLV + ufuatiliaji wa kiasi ndio ujumbe mkuu. Chunguza utumiaji wake kwa kazi zinazohusiana kama usanisi wa mtazamo au ukadiriaji wa nyenzo. Chunguza mbinu za kujifunza zenye usimamizi wa kibinafsi au urekebishaji wa wakati wa majaribio ili kuungana pengo la sim-to-real kwa data halisi ya rununu.
- Kwa Wahandisi/Timu za Bidhaa: Fikiria hii kama kumbukumbu ya kiwango cha dhahabu kwa AR yenye usahihi wa juu. Kwa ujumuishaji wa bidhaa wa karibu, zingatia kudondosha muundo huu (mfano, kupitia udondoshaji wa maarifa [Hinton et al. 2015]) kuwa toleo la kirafiki la rununu ambalo linaweza kukimbia kwa wakati halisi, labda kwa kukadiria SGLV kwa muundo wa data wenye ufanisi zaidi.
- Kwa Wastrategi wa Data: Thamani ya data ya bandia ya hali ya juu imethibitishwa. Wekeza katika kuzalisha seti za data za bandia zenye anuwai zaidi, sahihi za kimwili ambazo zinashika anuwai pana ya matukio ya taa (mfano, caustics changamano, vyombo vinavyoshiriki).
8. Mtazamo wa Matumizi na Mwelekeo wa Baadaye
Matumizi ya Haraka:
- Uundaji wa Maudhui ya Hali ya Juu ya AR: Zana za kitaaluma kwa filamu, usanifu, na usanifu wa ndani ambapo uingizaji wa kitu cha kufikirika chenye uhalisia wa picha ni muhimu.
- Uwepo wa Mbali wa Kuzama & Mkutano: Kuwasha uso wa mtumiaji kwa usawa na mazingira ya mbali kwa simu za video zenye uhalisia.
- Biashara ya Elektroniki & Rejareja: Kuwaruhusu wateja kuona bidhaa (samani, mapambo, vifaa) katika nyumba zao wenyewe chini ya hali sahihi za taa.
Mwelekeo wa Utafiti wa Baadaye:
- Uchoraji Kinyume Uliounganishwa: Kupanua mfumo ili kukadiria pamoja taa, nyenzo, na jiometri kutoka kwa mawasiliano machache, kusonga kuelekea mfuatano kamili wa uelewa wa eneo.
- Ufanisi na Utumiaji kwenye Kifaa: Utafiti katika ukandamizaji wa muundo, mbinu za uchoraji wa neural zenye ufanisi, na usanidi unaotambua vifaa vya kuleta kiwango hiki cha ubora kwenye AR ya rununu ya wakati halisi.
- Kushughulikia Taa ya Nguvu: Kazi ya sasa inazingatia maeneo tuli. Mipaka kuu ni kukadiria na kutabiri mabadiliko ya taa ya nguvu (mfano, kuwasha/kuzima taa, kusogeza vyanzo vya mwanga, kubadilisha jua).
- Ujumuishaji na Uwakilishi wa Neural wa Eneo: Kuchanganya dhana ya SGLV na uwakilishi wa dhahania kama NeRF au 3D Gaussian Splatting [Kerbl et al. 2023] ili kuunda muundo kamili wa neural wa eneo unaoweza kutofautishwa na kuhaririwa.
9. Marejeo
- Zhengqin Li, Li Yu, Mikhail Okunev, Manmohan Chandraker, Zhao Dong. "Spatiotemporally Consistent HDR Indoor Lighting Estimation." ACM Trans. Graph. (Proc. SIGGRAPH), 2023.
- Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." ECCV, 2020.
- Geoffrey Hinton, Oriol Vinyals, Jeff Dean. "Distilling the Knowledge in a Neural Network." arXiv:1503.02531, 2015.
- Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM Trans. Graph., 2023.
- Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." ICCV, 2017. (CycleGAN - iliyorejelewa kwa dhana za kukabiliana na kikoa zinazohusiana na sim-to-real).
- Seti ya Data ya OpenRooms. https://openrooms.github.io/