Leveraging Scene Text Information for Image Interpretation

Tesi d’estudis: Tesi doctoral

Resum

Fins fa poc, la majoria dels models de visió per computador seguien sent analfabets, ignorant en gran mesura la informació explícita i semànticament rica continguda com a text d’escena. El progrés recent en la detecció i reconeixement de text d’escena ha permès recentment explorar el seu paper en un conjunt divers de problemes oberts de visió per computador, p. classificació d’imatges, recuperació de text d’imatges, subtítols d’imatges i resposta visual a preguntes, per nomenar-ne alguns. La semàntica explícita del text de l’escena requereix un modelatge específic similar al llenguatge. Tot i això, el text de l’escena és un senyal particular que s’ha d’interpretar d’acord amb una perspectiva integral que encapsuli tots els senyals visuals en una imatge. Incorporar aquesta informació és una tasca senzilla per als humans, però si no estem familiaritzats amb un idioma o escriptura, és impossible assolir una comprensió completa del món (per exemple, visitar un país estranger amb un alfabet diferent). Tot i la importància del text de l’escena, modelar-lo requereix considerar les diverses formes en què el text de l’escena interactua amb una imatge, processant i fusionant una modalitat addicional. En aquesta tesi ens centrem principalment en dues tasques, la classificació d’imatges de granularitat fina basada en text d’escena i la recuperació multimodal. En totes dues tasques estudiades identifiquem les limitacions existents als enfocaments actuals i proposem solucions plausibles. Concretament, a cada capítol: i) Definim una forma compacta de respresentar text d’escena que es generalitza a paraules invisibles en temps d’entrenament mentre es realitza en temps real. ii) Incorporem la representació de text d’escena prèviament apresa per crear un descriptor de nivell d’imatge que supera els errors de reconeixement òptic de caràcters (OCR) que s’adapten bé a la tasca de classificació d’imatges de gra fi. iii) Dissenyem una xarxa de raonament a nivell de regió que aprèn la interacció a través de la semàntica entre regions visuals excel·lents i instàncies de text d’escena. iv) Fem servir informació de text d’escena a la coincidència d’imatge i text i introduïm la tasca stacmr de recuperació Cross-Modal conscient de text d’escena. Recopilem un conjunt de dades que incorpora el text de l’escena i dissenyem un model adequat per a la modalitat estudiada recentment. v) Identifiquem els inconvenients de les mètriques de recuperació actuals a la recuperació multimodal. Es proposa una mètrica de subtítols d’imatges com una forma d’avaluar millor la semàntica en els resultats recuperats. Una àmplia experimentació mostra que la incorporació de la dita semàntica en un model produeix millors resultats semàntics i requereix una quantitat significativament menor de dades per convergir.
Data del Ajut21 de nov. 2022
Idioma originalAnglès
SupervisorLuis Gomez Bigorda (Director/a) & Dimosthenis Karatzas (Director/a)

Com citar-ho

'