COTWEETGAL: Corpus de tweets publicados en Galicia

Descrición: 

O proxecto ten como obxectivo a elaboración, difusión e explotación dun corpus lingüístico para a análise de diferentes linguas en Twitter, con especial atención á galega. Constrúese a partir dunha base de datos de arredor de 72 000 chíos publicados nesta rede social dende as sete cidades galegas durante o trienio 2019-2021, que procura ser optimizada progresivamente ata converterse nun corpus dispoñible ao público mediante unha aplicación web de consultas.

O contido está almacenado, preprocesado e organizado en oito campos (data, lugar, contido bruto, contido limpo, likes, retweets, hashtags e lingua), que facilitan a busca, localización e selección de chíos. Trátase dun conxunto de datos balanceado que favorece os estudos cuantitativos e cualitativos de diferentes aspectos relacionados coa análise da linguaxe e do discurso en redes sociais. Sobre el levouse a cabo un labor de anotación de palabras ortográficas (segmentación, maiúsculas, signos de puntuación, negriñas e cursivas) e de emoticonas (descritas en galego e en inglés).

A finalidade de COTWEETGAL é constituír un soporte empírico para estudos lingüísticos cun gran potencial de explotación, pois abrangue un importante abano de linguas diferentes (catalán, español, éuscaro, francés, galego, inglés e portugués, entre outras) que favorece as análises contrastivas, inter e intralingüísticas.

Execution date: 
2025 to 2026
Funded by: 
Actividade realizada en colaboración co Ministerio de Cultura do Goberno de España