understanding and editing light in images

Tesi d’estudis: Tesi doctoral

Resum

Aquesta tesi té com a objectiu explorar una solució global per a que els efectes de la llum a les imatges siguin comprensibles i editables fent servir tècniques de descomposició intrínseca i re-il·luminació. Els reptes que es plantegen inclouen la manca de conjunts de dades adequats i arquitectures de xarxes que puguin generalitzar a escenaris més diversos. Per abordar aquests reptes s'exploren tres aproximacions diferents. En primer lloc, proposem un marc de treball bàsic per a l'edició d'imatges que permet variar els colors dels objectes i la seva il·luminació a partir d'una sola imatge, garantint una coherència física global. Per aconseguir això, introduïm un conjunt d'imatges sintètiques i una sèrie d'arquitectures basades en la descomposició intrínseca. La proposta dona bons resultats en les tasques d'edició esmentades, i demostra l'efectivitat de la descomposició intrínseca com a estratègia. Dona bons resultats en imatges reals si es fa un entrenament afinat de les dades, tot i que la proposta està limatada a escenaris específics. En segon lloc, i per a superar les limitacions anteriors. Explorem més a fons la re-iluminació a partir d'una sola imatge tant des de la perspectiva de les dades com com metodològiques. Proposem dos nous conjunts de dades: un sintètic amb components intrínsecs i un altre real sota llums múltiples, adquirit en condicions de laboratori. Per incorporar més coherència física al procés de re-iluminació, establim una xarxa amb dues fases, basada en la descomposició intrínseca, proporcionant sortides en passos intermedis i restriccions addicionals. Quan el conjunt d'entrenament no té components intrínsecs, introduïm un mòdul no supervisat per a millorar l'entrenament de les components. En termes de re-iluminació, el nostre mètode millora els mètodes de l'estat de l'art, tant sobre conjunts de dades existents com en els nous desenvolupats. A més a més, demostrem que el pre-entrenament dels nostres mètodes i els anteriors en el nostre conjunt de dades sintètic pot millorar el seu rendiment en altres conjunts de dades. Tot i així, concloem amb les limitacions de l'esquema d'una sola imatge que impedeix una re-il·luminació perfecte. Per superar aquestes limitacions, passem a utilitzar imatges d'entrenament amb múltiples vistes i múltiples llums per a escenes individuals. Proposem MLI-NeRF, que integra la informació de múltiples llums en els camps de radiància neural dels components intrínsecs. Aprofitant la informació de l'escena proporcionada per les múltiples fonts de llum, es generen imatges de pseudo-etiquetes per a la reflectància i l'ombrejat que permeten guiar la descomposició de la imatge sense necessitat de dades de referència. El nostre mètode introdueix una supervisió senzilla per a la separació de components intrínsecs i assegura robustesa en diversos tipus d'escenes. Validem el nostre enfocament en conjunts de dades sintètics i reals, superant els mètodes més avançats. Aquesta tesi no només millora la comprensió dels efectes de llum en les imatges, sinó que també proporciona eines robustes per a aplicacions pràctiques d'edició de llum. Les contribucions inclouen nous conjunts de dades, marcs i models que aborden desafiaments clau en el camp, obrint el camí per a futures investigacions i aplicacions.
Data del Ajut13 de set. 2024
Idioma originalAnglès
SupervisorMaria Isabel Vanrell Martorell (Director/a)

Com citar-ho

'