Tesouro Informatizado da Lingua Galega

Presentación

O Tesouro Informatizado da Lingua Galega ideouse basicamente como instrumento axuliar para a elaboración dun dicionario. É ben sabido que, aínda que a lexicografía galega moderna ten unha tradición xa longa (o primeiro dicionario impreso é de 1863) e deu como resultado algunhas obras destacables, o certo é que a maioría delas se realizaron tomando en consideración fundamentalmente o galego dialectal, e en moita menor medida o literario. É verdade que desde Valladares se aboan voces en tal ou cal pasaxe dun autor, pero están nunha proporción mínima en comparanza coas voces de procedencia dialectal ou coas que proceden da introspección dos propios autores dos dicionarios. Desta maneira, no galego literario existen innumerables voces e acepcións que nunca foron recollidas nos dicionarios. Isto xa xustificaría en por si a fabricación dun corpus, pero ademais na lexicografía moderna os dicionarios de referencia, e non só os históricos, adoitan incluír diversas informacións imprescindibles para trazar axeitadamente o perfil semántico e combinatorio de cada palabra, así como datos sobre a súa frecuencia, cronoloxía, etc. Este é o contexto en que se abordou a realización do TILG, que nun principio se chamou Base de datos lexicográfica para un dicionario da lingua galega.

Ata o ano 1985 viña compilándose no ILG un tesouro lexicográfico, baseado en materiais de recolleita dialectal e papeletizado polo sistema tradicional de fichas de papel ordenadas en caixóns. Cando nos anos oitenta comezaron a popularizarse a informática e algúns programas de concordancias que facilitaban moito o baleirado de textos escritos, xurdiu a idea de construír un ficheiro electrónico que permitise aproveitar as vantaxes que ofrecían as novas tecnoloxías. En calquera caso, no ano 1985 non constituía xa ningunha novidade a compilación dunha base destas características. Así, en Francia elaborárase unha para o Trésor de la langue française alá polos anos 1960 (daquela usando fichas perforadas). Noutros ámbitos máis próximos ao noso, na década de 1980 estaban en proceso de elaboración ficheiros electrónicos para o euskera e o catalán, dirixidos, respectivamente, polos profesores Ibon Sarasola (da Academia Vasca) e Joaquim Rafel (do Institut d' Estudis Catalans). O contacto cos seus equipos permitiunos aproveitar a súa experiencia á hora de decidirmos diversos aspectos en relación co método de codificado dos textos, así como acerca do seu procesamento informático.

A manipulación dun texto desde o papel impreso ata o resultado final en forma de base de datos lematizada esixe bastantes operacións, comezando por transformar o texto a un formato electrónico mediante o seu escaneado e posterior recoñecemento óptico de caracteres (agás cando a mala calidade da imaxe obriga ao picado manual do escrito). Aínda despois de estar o texto en formato electrónico hai varios procesos que realizar, entre eles o de elaborar unha edición especial para a lectura pola máquina.

Unha vez posto o texto en formato electrónico, o programa realiza de xeito automático a maior parte do procesamento dos datos, excepto cubrir os campos correspondentes ao lema e á categoría gramatical. Hoxe hai etiquetadores automáticos que poden fabricar os lemas e as categorías, pero para unha lingua escasamente normativizada como é o galego xeran moitos problemas, xa que ás ambigüidades que presenta calquera lingua, xa de por si difíciles de resolver de maneira automática, hai que engadir unha infinidade de formas imprevisibles debido á fronde de variantes morfolóxicas e fonéticas, ás veces dialectais, e non poucas veces froito de prexuízos puristas e mesmo hiperpuristas do escritor. Un lematizador automático pode asignarlle a calquera forma dun texto a forma non marcada (aquela pola que a buscariamos nun dicionario); pero non pode agrupar variantes non morfolóxicas. Dito doutro xeito, a azucre e azucres pode fabricarlles un lema azucre (e indicar que a primeira forma é singular e a segunda plural), pero non pode pasar de aí. Iso (á parte de que cando comezamos os programas de etiquetación aínda estaban en ensaio) foi o que nos decidiu a fabricar un programa que nos axudase a encher as columnas de lema e categoría de maneira semi-automática, desambiguando cun só golpe de tecla, de xeito que quedasen cubertos os baleiros desas columnas sen necesidade de mecanografar letra por letra o seu contido. Desta maneira podemos recoller baixo un mesmo lema todas as variantes morfolóxicas e fonéticas dunha mesma palabra. Se abrimos o TILG polo lema azucre rexistramos as seguintes 8 variantes (cos seus plurais, se os hai): asúcar, asucre, azúcar, azucr’, azucre, sucre, zúcaro e zucre. O noso programa agrúpaas todas baixo a forma canónica (a coincidente coa canónica actual) azucre. Este modo de operar ten o inconveniente de que esixe moito tempo, pero a cambio ofrece a vantaxe de permitir logo recuperar de maneira conxunta todas as variantes dunha mesma forma léxica.

Todo o proceso aquí sumariamente descrito requiriu moito esforzo en medios humanos e económicos. Os económicos foron fornecidos de maneira ininterrompida pola Dirección Xeral de Política Lingüística (e logo da Secretaría Xeral de Política Lingüística) da Xunta de Galicia. Os medios humanos foron e son o persoal contratado con cargo ao proxecto e outros colaboradores do centro.

Como se indicou máis arriba, a base de datos estaba pensada inicialmente para ser usada como material para un dicionario. Cando se comezou, nin se sospeitaba que podería ser outra cousa que un ficheiro, alternativo aos tradicionais, con poucas utilidades máis alá daquela para a que fora deseñada, e consultable só in situ. Pouco tempo andado aquelas limitacións de utilización e de localización desapareceron e adaptouse para poder ser consultada para numerosas finalidades e de maneira instantánea desde calquera parte do mundo.

A necesidade de ampliar aínda máis as súas posibilidades como recurso lingüístico conduciu á súa inclusión na rede de Recursos Integrados da Lingua Galega (RILG) a partir de 2006. Para isto, o corpus foi actualizado en colaboración co Seminario de Lingüística Informática da Universidade de Vigo. Finalmente, a versión que agora se ofrece é o resultado da revisión e actualización do proxecto, cunha nova interface de consulta e con algunhas novas ferramentas, a cargo do equipo responsable. Nos seguintes gráficos ofrécense algúns datos acerca da súa composición e distribución por períodos cronolóxicos.


Lemas por período cronolóxico

Número total de lemas: 95.409

O gráfico mostra o número de lemas rexistrados nos distintos treitos cronolóxicos. Para cada un deles ofrécense desagregadas as cifras correspondentes aos lemas novos (rexistrados por primeira vez nese período) e aos xa documentados nos períodos precedentes.


Distribución temporal de palabras

Distribución temporal de obras

Número total de palabras: 26.253.108

Número total de obras: 1.958