Efficient Neural Network Inference for Resource Constrained Devices

Tesi d’estudis: Tesi doctoral

Resum

Els avenços de la darrera dècada en l’aprenentatge profund han suposat un gran salt en els resultats d’última generació pel que fa a tasques com la classificació d’imatges, la traducció d’idiomes i moltes altres. Tanmateix, amb aquest èxit, hi ha hagut un augment relacionat en la complexitat i la mida del model, que ha incrementat els requisits de maquinari tant per a la formació com per a la inferència (tant generalment com inicialment limitats a les GPU). A més, les capacitats del maquinari (rendiment OPS, memòria, rendiment, latència, energia) han suposat una limitació inicial per desplegar aplicacions en plataformes i aplicacions amb recursos limitats, com ara plataformes mòbils o incrustades. Hi ha hagut moltes iniciatives per reduir el temps de formació i els costos energètics, i millorar l’eficiència de les dades durant la fase de desenvolupament. Igualment, també hi ha hagut una investigació profunda per optimitzar els models d’aprenentatge profund amb un enfocament en la inferència i el desplegament: disminució de la complexitat del model, la mida, la latència i el consum de memòria. En aquesta direcció, hi ha cinc mètodes d’optimització que han destacat: poda, quantificació, cerca d’arquitectura neuronal, operacions eficients i destil·lació. Paral·lelament, per tal de permetre el desplegament d’inferència en plataformes de maquinari especialitzades, han aparegut nous frameworks (com ara CMSIS-NN o uTensor per a MCUS, i TF Lite per a plataformes mòbils). Aquests marcs inclouen diverses característiques per al desplegament de models, però el més important, el punt crucial és si admeten les operacions i optimitzacions específiques del model, assegurant el desplegament final de l’aplicació. Tot plegat, des dels procediments d’optimització fins als marcs de conversió i desplegament, el procediment per desenvolupar models eficients basats en NN i desplegar-los en maquinari restringit ha millorat sens dubte, encara que amb algunes limitacions. En aquest sentit, aquesta tesi s’emmarca en aquestes millores i limitacions: en primer lloc, amb el desenvolupament i millora de tècniques d’optimització de NN, i en segon lloc, amb l’ús i desenvolupament de programari per portar els models optimitzats. Tot amb un focus especial en tres casos industrials i pràctics que són els principals motors dels desenvolupaments: la interacció home-màquina d’automoció, ITM en dispositius mòbils i guia broncoscòpia. En el primer cas, mostrem el desplegament i l’optimització de RNN a les MCU, així com l’ús i la millora de l’optimització bayesiana i els mètodes NAS per oferir xarxes mínimes però de bon rendiment. En conjunt, oferim un marc per convertir i desplegar xarxes automàticament en MCU basades en Cortex-M. En el segon entorn, utilitzem operacions de quantificació i eficients per portar una xarxa ITM als dispositius mòbils per a una inferència eficient, proporcionant millores en la latència fins a 100 vegades amb només una pèrdua de precisió del 3%. Finalment, desenvolupem una xarxa de guia de broncoscòpia eficient amb poda estructurada i operacions eficients, que proporciona una reducció de x4 de mida NN i una millora del ~14% en la precisió per a la localització de la posició.
Data del Ajut21 de nov. 2022
Idioma originalEnglish
Institució adjudicatària
  • Universitat Autònoma de Barcelona (UAB)
SupervisorJordi Carrabina Bordoll (Director/a) & David Castells Rufas (Director/a)

Com citar-ho

'