La búsqueda de objetos de texto en imágenes de escena reales es un problema abierto y un área de investigación muy activa la visión por computador. Se han propuesto un gran número de métodos basados en la extensión de los métodos desde el análisis de documentos o inspirado en métodos de detección de objetos. Sin embargo, el problema de la búsqueda de objetos en imágenes de escena reales sigue siendo un problema extremadamente difícil debido a la gran variabilidad en la apariencia de los objetos. Esta tesis se basa en los más recientes hallazgos en la literatura de la atención visual, introduciendo un nuevo modelo computacional de visión guiada que apunta a describir la búsqueda de texto en imágenes de escenas reales. En primer lugar se presentan los resultados mas pertinentes de la literatura científica en relación con la atención visual, los movimientos oculares y la búsqueda visual. Los mas relevantes modelos de atención son discutidos e integrados con recientes obser- vaciones sobre la función de los denominados ’top-down constraints’ y la emergente necesidad de un modelo estratificado de atención en el que la saliencia no es el único factor guía de atención. La atención visual se explica por la interacción de varios factores moduladores, tales como objetos, valor, planes y saliencia. Se introduce nuestra formulación probabilística de los mecanismos de atención en escenas reales para la tarea de búsqueda de objetos. El modelo se basa en el argumento de que el despliegue de atención depende de dos procesos distintos pero interactuantes: un proceso de atención que asigna valor a las fuentes de información y un proceso motor que une flexiblemente información con la acción. En ese marco, la elección de dónde buscar la próxima tarea es dependiente y orientada a las clases de objetos incrustados en imágenes de escenas reales. La dependencia de la tarea se tiene en cuenta al explotar el valor y la recompensa de contemplar ciertas partes o proto-objetos de la imagen que proporcionan una rala representación de los objetos en la escena. En la sección experimental se prueba el modelo en condiciones de laboratorio, comparando las simulaciones del modelo con datos de experimentos de eye tracking. La comparación es cualitativa en términos de trayectorias de exploración y cuanti- tativa, en términos de similitud estadística de la amplitud de movimientos oculares. Los experimentos se han realizado con datos de eye tracking tanto de un conjunto de datos públicos de rostros humanos y texto, tanto con un nuevo conjunto de datos de eye tracking y de imágenes urbanas con texto. La última parte de esta tesis se dedica a estudiar en qué medida el modelo prop- uesto puede responder del despliegue de atención en un entorno complejo. Se ha utilizado un dispositivo móvil de eye tracking y una metodología desarrollada es- pecíficamente para comparar los datos simulados con los datos grabados de eye track- ing. Tal configuración permite poner a prueba el modelo en la tarea de búsqueda de texto muy parecida a una búsqueda real, en la condición de información visual incompleta.
A computational model of eye guidance, searching for text in real scene images
Clavelli, A. (Autor/a). 13 oct 2014
Tesis doctoral