COTWEETGAL: Corpus de tweets publicados en Galicia

Main researcher:

Noelia Estévez Rionegro

Team members:

Eva María Domínguez Noya

Elisa Fernández Rei

Alba Fernández Sanmartín

Xosé Luís Regueira Fernández

Reyes Rodríguez Rodríguez

Inés Veiga Mateos

Adina Ioana Vladu

Descrición:

O proxecto ten como obxectivo a elaboración, difusión e explotación dun corpus lingüístico para a análise de diferentes linguas en Twitter, con especial atención á galega. Constrúese a partir dunha base de datos de arredor de 72 000 chíos publicados nesta rede social dende as sete cidades galegas durante o trienio 2019-2021, que procura ser optimizada progresivamente ata converterse nun corpus dispoñible ao público mediante unha aplicación web de consultas.

O contido está almacenado, preprocesado e organizado en oito campos (data, lugar, contido bruto, contido limpo, likes, retweets, hashtags e lingua), que facilitan a busca, localización e selección de chíos. Trátase dun conxunto de datos balanceado que favorece os estudos cuantitativos e cualitativos de diferentes aspectos relacionados coa análise da linguaxe e do discurso en redes sociais. Sobre el levouse a cabo un labor de anotación de palabras ortográficas (segmentación, maiúsculas, signos de puntuación, negriñas e cursivas) e de emoticonas (descritas en galego e en inglés).

A finalidade de COTWEETGAL é constituír un soporte empírico para estudos lingüísticos cun gran potencial de explotación, pois abrangue un importante abano de linguas diferentes (catalán, español, éuscaro, francés, galego, inglés e portugués, entre outras) que favorece as análises contrastivas, inter e intralingüísticas.

Execution date:

2025 to 2026

Funded by:

Actividade realizada en colaboración co Ministerio de Cultura do Goberno de España

Related publications

"COTUITGAL: Materiales para la elaboración de un corpus lingüístico destinado al análisis del discurso en Twitter"
Noelia Estévez Rionegro (2026): Perspectivas interdisciplinares en lengua, literatura y traducción: desde las raíces clásicas hasta la era de la inteligencia artificial, Salud Adelaida Flores Borjabad / Javier Antonio Nisa Ávila (coords.), Tirant Lo Blanch, 333-350 - Capítulo de libro

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Content Index

COTWEETGAL: Corpus de tweets publicados en Galicia

Related publications

The ILG

July

Content Index

You are here

COTWEETGAL: Corpus de tweets publicados en Galicia

Related publications

Search form

The ILG

July