La present tesi de recerca té com a objectiu desenvolupar un motor de traducció automàtica neuronal (TAN) per a la combinació de castellà i gallec, amb un enfocament especial en la comunicació digital a través de les xarxes socials. La recerca parteix de l'anàlisi dels processos habituals d'entrenament de la TAN dins de la indústria de la traducció. A partir d'aquesta anàlisi, es fonamentaran els fonaments teòrics d'aquest treball. En primer lloc, s'abordarà el multilingüisme i la seva relació amb la comunicació digital en missatges curts, on s'aprofundirà en la seva caracterització i s'analitzaran els principals reptes que planteja la traducció automàtica en aquest gènere textual específic. Posteriorment, es definirà la traducció automàtica neuronal, es descriurà el marc legal i els procediments habituals per a la creació del corpus d'entrenament i, finalment, s'analitzaran les principals mètriques d'avaluació de la qualitat de la TAN.
Un cop descrit el marc teòric i els antecedents, dins del marc metodològic, es descriuen en detall els procediments duts a terme per entrenar el motor de traducció i crear el corpus d'entrenament necessari per al seu funcionament òptim. Posteriorment, es presenta l'estratègia d'avaluació de la qualitat dissenyada específicament per a aquest motor i context particular. Aquest enfocament innovador incorpora tres mètriques d'avaluació diferents: BLEU, MQM-DQF i una anàlisi de no inferioritat, amb la finalitat d'obtenir dades quantitatives i qualitatives exhaustives sobre les traduccions de piulades. L'avaluació de no inferioritat, en particular, es presenta com una aproximació innovadora en el camp de l'avaluació de la qualitat de la TAN. Per validar tant el motor com l'instrument d'anàlisi, es fa una prova pilot inicial. Els resultats i les dades obtinguts en aquesta fase pilot s'empren per millorar el motor i ampliar el corpus d'entrenament. Posteriorment, es procedeix a una avaluació més exhaustiva del motor, integrant les dades de les tres mètriques d'avaluació esmentades anteriorment. La triangulació de resultats proporciona una avaluació completa de la qualitat final del motor.
Finalment, a partir de l'anàlisi de les dades recopilades, s'assoleixen els objectius plantejats i s'extrauen conclusions sòlides que recolzen les hipòtesis de partida i contribueixen al coneixement en el camp de la TAN i la seva aplicació en contextos específics de comunicació digital.
Traducción automática neuronal para lenguas con recursos reducidos. La evaluación de los usuarios según el principio de no inferioridad.
Do Campo Bayón, M. (Autor). 17 de nov. 2023
Tesi d’estudis: Tesi doctoral
Tesi d’estudis: Tesi doctoral