Foto: Secretaría Xeral de Política Lingüística

A versión 3.0 do Corpus de Referencia do Galego Actual (CORGA) está xa dispoñible, sen necesidade de rexistro previo e de balde, para a súa consulta en liña. Contén 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. O proxecto desenvólvese no Centro Ramón Piñeiro para a Investigación e Humanidades no marco do convenio subscrito entre a Universidade de Santiago de Compostela e a Consellería de Cultura, Educación e Ordenación Universitaria.



A presentación da nova versión tivo lugar este venres no Centro Ramón Piñeiro e nela interviñeron a directora do proxecto e profesora da USC, Marisol López; o secretario da RAE e tamén docente na USC, Guillermo Rojo; o secretario xeral de Política Lingüística, Valentín García; e o catedrático de Filoloxía Románica da USC e coordinador científico do Centro Ramón Piñeiro, Manolo González. Os coordinadores da parte lingüística e informática do CORGA, Eva Domínguez e Mario Barcala, respectivamente, fixeron ademais unha breve demostración do funcionamento do proxecto.

O CORGA é un corpus documental integrado por distintos tipos de textos, dende xornais, semanarios, revistas, blogs, ensaios, novelas e relatos curtos ata obras de teatro e guións televisivos. Os documentos codifícanse na linguaxe estándar XML e abranguen cronoloxicamente dende 1975 ata a actualidade. Nesta nova versión unifícanse os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca. A amplitude de documentos dos que consta así como os criterios empregados na súa selección permiten considerar este corpus representativo do uso lingüístico do galego actual.

Á vangarda dos corpus
Entre as numerosas novidades que achega esta versión destaca a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten non só a posibilidade de realizar pescudas en textos orais, senón tamén a posibilidade de escoitar o fragmento que corresponde ao contexto dos resultados obtidos.

Porén, sen dúbida, a característica máis sobresaínte desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo CIRP e o grupo COLE das universidades da Coruña e Vigo.

Deste xeito, a mera representación gráfica non restrinxe a potencialidade das consultas e pódese buscar no corpus, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non. Mais tamén é posible facer procuras por categoría gramatical, trazos morfolóxicos ou lemas, podendo empregar ademais como parámetros selectores os diversos criterios de clasificación textual, os cales poden combinarse entre si en función das necesidades/desexos do usuario: período temporal, tipo de documento, área temática, parte do documento etc. Así, o CORGA presenta un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos.

Entre outras melloras destacables figuran o incremento do volume textual coa inclusión de novos documentos pertencentes aos últimos lustros; o emprego dunha interfaz gráfica amigable que salienta a visualización dos resultados mediante concordancias e gráficas, as múltiples posibilidades de ordenación dos resultados ou a opción de deshabilitar a sensibilidade a acentos e maiúsculas nas procuras; a clasificación tipolóxica dos documentos, ou a engádega de abundante información nas páxinas estáticas sobre o corpus: descrición, documentos que o integran, historial de versións, publicacións que o referencian, guía de uso, descarga das listaxes de palabras, elementos gramaticais, lemas ou etiquetas etc.

Os recursos relacionados con este proxecto destínanse ás persoas interesadas no estudo da lingua galega actual nos diferentes eidos, fornecéndoos con ferramentas que lles permitan obter datos de diversa índole relacionados co emprego da lingua e desenvolver ferramentas de análise do galego cada vez máis sofisticadas.

LOLA RIDGE, IRISH-AMERICAN RADICAL POET

The poet and activist Rose Emily ‘Lola’ Ridge (1873-1941), was...

Estrategias para la calidad y la regeneración democrática

José Manuel Canales y Ángel Valencia Sáiz (editores), Estrategias para...

Flujos de trabajo serán cada vez más eficientes con el uso de tableros Kanban

Para visualizar, gestionar y corregir los errores en tiempo real...

¿Dónde se pueden estudiar las lenguas cooficiales de España en Andalucía?

:CON MOTIVO DE LAS PRÓXIMAS ELECCIONES GENERALES ASÍ COMO AL...

Robert Boyd, un irlandés en busca de la libertad en España. Por Francisco Javier Salmerón Giménez

Después de defender Cartagena y Alicante del cerco realizado por...

Telefónica del Perú y Ley N° 29733 - Ley de Protección de Datos Personales por declaraciones de Luis Vargas

Dr. (PhD) Miguel Gallardo PERITO Tel.  (+34) 902998352 E-mail: apedanica.ong@gmail.com Asociación...

Relaciones España-Irlanda Aula María Zambrano de Estudios Transatlánticos de la Universidad de Málaga

El Aula María Zambrano de Estudios Transatlánticos de la Universidad...

Otros articulos relacionados.....