Publícase o corpus ParlaMint 3.0 con datos do Parlamento galego
Acaba de facerse público o corpus ParlaMint 3.0, en que o ILG e o Proxecto Nós participan coa compilación e etiquetaxe dos datos do Parlamento galego (ParlaMint-ES-GA). ParlaMint é un proxecto que se desenvolve no marco de CLARIN, cuxo obxectivo é a creación dun corpus de sesións parlamentarias multilingües comparables e homologadas.
Os corpus codifícanse de forma uniforme, incluíndo ricos metadatos con información dos locutores (identificador, nome, xénero, partido político...) e das intervencións (data, identificador, rol do locutor...). A codificación segue o esquema TEI-XML de ParlaMint, baseado nas recomendacións Parla-CLARIN (adaptación das Guías TEI). Os corpus tamén contan con anotación lingüística automática seguindo o formato Universal Dependencies e incluíndo NER (Recoñecemento de Entidades Nomeadas).
A versión que vén de publicarse inclúe:
- os corpus ParlaMint 3.0 de sesións parlamentarias multilingües comparables, dispoñibles para descarga en: http://hdl.handle.net/11356/1486
- os corpus ParlaMint.ana 3.0 de sesións parlamentarias multilingües comparables, enriquecidos con anotación lingüística automática, dispoñibles para descarga en: http://hdl.handle.net/11356/1488 e para consulta nos buscadores de corpus (de consulta gratuíta) KonText: https://www.clarin.si/kontext e NoSketch Engine: https://www.clarin.si/ske/#open.