Día a día, la capacidad de detectar y reconocer objetos en imágenes automáticamente se hace cada vez más importante. Desde los sistemas de seguridad y los robots, a los teléfonos de última generación y la realidad aumentada, cada dispositivo inteligente necesita conocer el significado semántico de la imagen. Esta tesis aborda el problema de la detección rápida de objetos a partir de modelos basados en patrones. La búsqueda de un objeto en una imagen es el procedimiento de evaluar la similitud entre el modelo y cada ubicación y escala posible de la imagen. En esta tesis se argumenta que utilizar una representación del modelo de objetos basada en una jerarquía de resoluciones múltiples es una opción adecuada que puede conducir a una excelente precisión y un cálculo rápido. Como, para detectar a múltiples escalas, la búsqueda del objeto se efectúa de forma implícita en múltiples resoluciones, utilizar también un modelo de objetos con resoluciones múltiples permite una representación mejor del modelo, casi sin coste computacional adicional. Además, el modelo multiresolución se adapta de forma natural a una búsqueda sobre multiples resoluciones en la imagen, desde bajas a altas. Esto conduce a una doble aceleración debida a: un inicialmente reducido conjunto de ubicaciones en baja resolución donde realizar la búsqueda del objeto; un coste reducido de la evaluación del modelo. La búsqueda sobre multiples resoluciones puede efectuarse utilizando una cascada de clasificadores multirresolución, que elimina los ejemplos negativos en la resolución baja. Un método alternativo se basa en seleccionar localmente, pero de manera uniforme, las mejores detecciones a resolución baja y, luego, propagar estas hipothesis a los siguientes niveles de resolución. Este método, que llamamos búsqueda coarse-to-fine, tiene una aceleración parecida a la cascada de multiples resoluciones, pero el coste computacional es independiente del contenido de la imagen. La búsqueda coarse-to-fine se extiende a modelos deformables con partes. En este enfoque, la jerarquía de los modelos se separa de forma recursiva en las subpartes deformables a medida que aumenta la resolución del modelo. De esta manera, cada parte puede ajustarse al objecto en la imagen, produciendo una mejor representación y, por tanto, una mejor precisión en la detección con un tiempo computacional muy reducido. Se han validado los diferentes modelos de multirresolución en varias bases de datos de uso común, mostrando que los resultados alcanzan el estado del arte, pero con un coste computacional reducido. Por último, se presenta una especialización del modelo de multirresolución deformable para la tarea de detección de peatones desde vehículos en movimiento, que requiere tanto una alta precisión como un rendimiento en tiempo real. Se ha demostrado que la calidad global de nuestro modelo es superior a los trabajos anteriores y que puede producir una detección fiable de peatones basada solamente en imágenes.
Hierarchical Multiresolution Models for fast Object Detection
Pedersoli , M. (Autor/a). 8 jun 2012
Tesis doctoral