Model free approach towards human action recognition

Tesi d’estudis: Tesi doctoral

Resum

La comprensio automatica de les accions humanes observades en sequencies d'imatges es molt important en el area de recerca de la Vision per Computador, amb aplicacions a gran escala en la vigilancia de video, analisi del moviment huma, interficies de realitat virtual, robots de navegacio, aixi com per al reconeixement, indexacio, i recuperacio de video. Aquesta tesi presenta una serie de tecniques per resoldre el problema del reconeixement de les accions humanes en video. El nostre primer enfocament cap a aquesta tema es basa en la optimitzacio d'un model probabilistic de les parts del cos utilitzant una Hidden Markov Model (HMM). Aquest enfocament es basa en un strong model, capac de distingir entre accions similars considerant nomes les parts del cos que tenen les majors aportacions en la realitzacio de certes accions, per exemple en cames per caminar i correr, o en bracos per a accions com boxa i aplaudir. El nostre seguent enfocament es basa en l'observacio de que el reconeixement d'accions es pot realitzar usant nomes informacio visual, ii la postura humana desenvolupada durant una accio, analitzant la la informacio d'uns quants frames en lloc d'examinar la sequencia completa. En aquest metode, les accions es representen mitjançant un model Bag-of-key-poses per poder capturar la variacio de la postura humana durant el desenvolupament d'una accio. Per fer front al problema del reconeixement de l'accio en escenes complexes, tot seguit es proposa una aproximacio model free basada en l'analisi de punts d'interes espai-temporals (STIPs) que disposen de molta informacio local. Amb aquesta finalitat, s'ha desenvolupat un nou detector de STIPs que es basa en el mecanisme de inhibicio del camp receptiu utilitzat en l'escorça primaria, en particular en l'orientacio selectiva visual de les neurones. A mes, hem estes el nostre reconeixement d'accions basat en STIPs selectius a sistemes multi-camera. En aquest cas, els STIPs selectius de cada punt de vista es combinen mitjançant les dades 3D reconstruïts per formar STIPs selectius 4D (espai 3D + temps). A la part final d'aquesta tesi, ens dediquem al reconeixement continu d'esdeveniments visuals (CVER) en bases de dades de videos de seguretat enormes, amb un gran conjunt de dades. Aquest problema es extremadament difícil a causa de l'alta escalabilitat de les dades, a les dificultats de l'entorn real en que es aplcia ja una variabilitat en escena molt ampli. Per abordar aquests problemes, les regions en moviment son detectades a partir d'una tecnica anomenada max margin generalized Hough transformation, que s'utilitza per aprendre aquella distribucio de característiques voltant d'una accio per reconeixer hipotesis que despres es verifiquen per Bag-of-words mes un classificador lineal. Hem validat les nostres tecniques en diversos conjunts de dades de vídeo vigilància que constitueixen l'estat de l'art actual en aquest tema. Els resultats obtinguts demostren que hem millorat la precisio en la deteccio d'accions humanes en video.
Data del Ajut22 d’oct. 2012
Idioma originalAnglès
SupervisorJordi Gonzalez Sabate (Director/a) & Francesc Xavier Roca Marva (Director/a)

Com citar-ho

'