Artigo de Eva M.ª Domínguez Noya e Vítor Míguez en ELG
Data:
Domingo, Diciembre 18, 2022 - 16:15
Xa se pode consultar na revista Estudos de Lingüística Galega o artigo "Unha mellora do CORGA extrapolable a outros corpus e linguas: a etiquetaxe da nomenclatura científica binomial", de Eva María Domínguez Noya e Vítor Míguez.
Resumo
O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional — as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.