Synth-to-real semi-supervised learning for visual tasks

Tesi d’estudis: Tesi doctoral

Resum

Aquest PhD se centra a aplicar l’aprenentatge semisupervisat (SSL) en problemes d’adaptació de domini sense supervisió (UDA) per tasques visuals relacionades amb la conducció autònoma._x000D_ _x000D_ Comencem adreçant el problema de sintètic a real en UDA per detecció d’objectes (vianants i cotxes) en sistemes de visió a bord, que és una tasca crítica en conducció autònoma i sistemes de conducció assistida. En particular, proposem l’aplicació d’una tècnica de SSL coneguda com a co-training (entrenament cooperatiu), el qual adaptem per treballar amb models profunds que processen dades d’entrada multimode, La multimodalitat consisteix en l’aparença visual d’imatges (RGB) i l’estimació monocular de profunditat. Aquest coneixement previ és el punt d’inici de la tècnica de co-training, que iterativament etiqueta dades reals sense etiquetar (pseudo-etiquetes) i les utilitza (en aquest cas quadrícules al voltant d’objectes amb classe assignada) progressivament per millorar el resultat de l’etiquetatge. Durant el transcurs d’aquest procés, dos models col·laboren per etiquetar automàticament les imatges, de mode que un model compensa les carències de l’altre i al revés, evitant propagació d’errors. A més a més, mostrem que el co-training multi-mode millora l’etiquetació en comparació al mode únic (només vista RGB), mantenint-se competitiu amb l’etiquetació per humans._x000D_ _x000D_ Gràcies a l’èxit del co-training en detecció d’objectes, adaptem aquesta tècnica a la segmentació semàntica. De fet, un humà pot trigar a etiquetar una sola imatge de 30 a 90 minuts, depenent del contingut d’aquesta. En particular, el nou framework de co-training adreça sintètic a real en UDA per mitjà d’una fase inicial d’auto etiquetatge. Models intermedis són creats a partir d’aquesta fase que s’utilitza per començar el procés de co-training, pel qual hem elaborat una política de col·laboració entre tots dos models que realitzen l’etiquetatge automàtic. A més a més, aquest mètode és agnòstic a la funció de cost utilitzada per entrenar models de segmentació semàntica que realitzen etiquetatges automàticament. Finalment, mostrem que aconseguim l’estat de l’art en datasets disponibles públicament i seguim mostrant que ens mantenim competitius amb l’etiquetatge humà._x000D_ _x000D_ Finalment, amb l’experiència obtinguda prèviament, hem dissenyat i implementat un nou mètode de SSL per UDA en el context de la segmentació semàntica. En aquest cas, imitem la metodologia d’etiquetatge que faria servir un humà. En particular, en comptes d’etiquetar tota la imatge de cop, definim categories de classes semàntiques i tan sols etiquetem aquestes d’una passada. Les pseudo-etiquetes obtingudes per cada categoria són finalment fusionades per obtenir automàticament la imatge totalment etiquetada. En aquest context, també hem contribuït al desenvolupament d’un nou dataset foto-realista d’imatges sintètiques renderitzades amb path-tracing. El nostre mètode de SSL aprofita perfectament datasets sintètics disponibles públicament junts al nostre, per assolir l’estat de l’art en resultats en UDA de sintètic a real per segmentació semàntica. Mostrem que el nostre nou dataset ens permet assolir millor precisió en l’etiquetatge que amb previs datasets existents, al mateix temps que els complementa adequadament quan els combinem. A més a més, també demostrem que la nostra nova tècnica de SSL inspirada en humans supera al co-training.
Data del Ajut23 de març 2023
Idioma originalAnglès
SupervisorAntonio Manuel Lopez Peña (Director/a) & Antonio Manuel Lopez Peña (Tutor/a)

Com citar-ho

'