Tesouro Informatizado da Lingua Galega

TILG

O Tesouro Informatizado da Lingua Galega concibiuse inicialmente como instrumento auxiliar para a elaboración dun dicionario; non en van a súa primeira denominación foi Base de datos lexicográfica para un dicionario da lingua galega. Pretendíase, deste xeito, complementar o tesouro lexicográfico, basicamente dialectal, que o Instituto da Lingua Galega viña compilando desde 1971 mediante o sistema tradicional de fichas en papel, con materiais extraídos de textos escritos en galego ao longo da Idade Moderna e Contemporánea.

O proceso que conduciu á elaboración do TILG iniciouse en 1986 coa transformación dos textos a formato electrónico, ben mediante o seu escaneado e o ulterior recoñecemento óptico de caracteres, ou ben, naqueles casos en que isto non foi posible, mediante o seu mecanografado nun soporte dixital. Unha vez conseguidas as versións electrónicas, os textos foron tratados co fin de reducir a variación gráfica e deste xeito facilitar o seu procesamento posterior. A lematización e anotación morfosintáctica realizouse de xeito semiautomático, con axuda dun programa desenvolvido especificamente para o efecto. Debe terse en conta, neste sentido, as serias limitacións que na altura tiñan os lematizadores, e máis aínda no caso dunha lingua feblemente estandarizada como a galega, que presentaba, ademais das ambigüidades que se rexistran en calquera lingua, unha mesta fronde de variantes morfolóxicas e fonéticas, moitas veces dialectais e en non poucas ocasións froito de prexuízos puristas e mesmo hiperpuristas, como os que caracterizan algunhas fases da historia da escrita do galego. Sexa como for, a pesar do considerable esforzo que supuña a lematización e anotación do corpus, considerabamos que quedaba compensado co beneficio de poder recuperar conxuntamente, agrupadas baixo unha forma canónica, todas as variantes formais dunha unidade léxica.

A primeira versión do TILG presentábase como unha base de datos consultable en liña que integraba 1464 textos e que foi posta a disposición do público no ano 2003. O desenvolvemento informático e o mantemento da aplicación correu a cargo, naquela ocasión, de José Ramom Pichel, de Imaxin Software.

Co fin de ampliar as súas posibilidades de explotación como corpus, a partir do ano 2006 púxose en marcha, en colaboración co Seminario de Lingüística Informática da Universidade de Vigo, dirixido por Xavier Gómez Guinovart, o reprocesamento dos textos para a súa transformación en documentos XML. O resultado deste proceso foi unha nova versión do corpus (TILG 2.0), consultable desde 2010 a través do portal RILG (Recursos Integrados da Lingua Galega), mantido polo Seminario de Lingüística Informática da Universidade de Vigo.

En 2013 abordouse unha nova revisión (TILG 3.0) que afectou fundamentalmente ao buscador e á interface de consulta, que ofrecía, ademais da concordancia da forma buscada, algúns datos estatísticos básicos, concretamente as frecuencias absoluta e ponderada. O desenvolvemento informático foi nesta ocasión responsabilidade de César Osorio.

Na versión que agora ofrecemos (TILG 4.1), desenvolvida en colaboración con NLPgo Technologies, S.L., os textos foron reprocesados para potenciar as posibilidades de explotación do corpus. Para iso, substituíuse o sistema de etiquetas empregado para a anotación morfosintáctica e enriqueceuse considerablemente a información, ata o de agora moi escasa, contida nas cabeceiras. Deste xeito, o novo TILG ofrece, ademais das dúas modalidades básicas de busca simple (por Lemas / Elementos gramaticais ou por Palabras gráficas), unha configuración de procura avanzada que permite refinar as operacións de busca ou filtrar os seus resultados.

Todo o traballo aquí sumariamente descrito requiriu moito esforzo en medios humanos e económicos. Os recursos económicos foron fornecidos de maneira ininterrompida pola Dirección Xeral de Política Lingüística (e posteriormente pola Secretaría Xeral de Política Lingüística) da Xunta de Galicia, que financiou este proxecto desde os seus inicios, alá por 1986. Os medios humanos foron, e son, as persoas que ao longo destes máis de trinta anos colaboraron de maneira directa ou indirecta co proxecto. Quede aquí constancia do noso agradecemento a todas elas.