Conferencia de Directores y Decanos de Ingeniería Informática

Una herramienta de la USC procesa portugués, gallego y español de forma competitiva

El investigador de la Universidad de Santiago de Compostela (USC) Marcos García ha dedicado su tesis doctoral al desarrollo de una serie de herramientas tecnológicas destinadas a mejorar el análisis y la extracción de información de textos en portugués, gallego y español.

El trabajo está enmarcado en la línea de investigación mixta en la que desde hace tiempo vienen colaborando el CiTIUS (Centro Singular de Investigación en Tecnoloxías de la Información) y el Grupo de Gramática del Español, ambos de la USC, informa ésta en una nota de prensa.

Escribir un correo electrónico, publicar una entrada en un blog, o comentar una fotografía en una red social, son pequeños ejemplos cotidianos de nuestra contribución al crecimiento exponencial de los datos en la red, cuya fracción más significativa -y probablemente, más utilizada por los internautas- está constituida por un número creciente de textos y documentos. Esta tendencia expansiva exige una evolución constante de las herramientas informáticas diseñadas para su análisis y procesado, que abarcan un amplio espectro de técnicas computacionales; todas ellas están cobrando cada vez mayor importancia, especialmente las empleadas en las áreas de procesamiento de lenguaje natural y extracción de información.

El procesamiento de lenguaje natural tiene múltiples aplicaciones, entre las que figuran los traductores automáticos o el aprendizaje de idiomas en línea. Las técnicas utilizadas en este ámbito se encuentran ya en un estado muy avanzado para lenguas como el inglés, pero en el caso de otras –como el gallego, el portugués, o incluso el español-, la tecnología disponible hasta la fecha es mucho más limitada.

Por su parte, los sistemas de extracción abierta permiten analizar la web para obtener y organizar automáticamente grandes cantidades de información, lo que resulta muy útil a la hora de discernir ideas o mensajes entre la maraña de datos de la red. Así, por ejemplo, los resultados de esta tesis permiten inferir de manera muy sencilla unidades semánticas fácilmente reconocibles, como «Santiago está en Galicia» o «la edad de Messi es 27 años», a partir de la información disponible en la web.

El sistema de extracción abierta presentado no sólo es el primero en funcionar en gallego, portugués y español, sino que ofrece resultados altamente competitivos con los mejores sistemas en lengua inglesa. Se trata, así, de la primera solución de este tipo disponible, un conjunto de herramientas lingüísticas desarrolladas bajo una licencia de software libre que pueden descargarse gratuitamente en http://gramatica.usc.es/~marcos/phd.html#cap2.

Una oportunidad para emprender

La línea de investigación que ampara este trabajo ha dado lugar también a la creación de una nueva empresa especializada en tecnologías del lenguaje: la spin-off del CiTIUS Cilenis Software, creada en 2011.

Según los responsables, Cilenis surgió como medio para hacer viables a nivel comercial los resultados de investigación del grupo; como afirma Pablo Gamallo, director de la tesis de Marcos García y co-fundador de Cilenis, lo que se pretende es «reducir el gap actual entre las herramientas disponibles para procesar la lengua inglesa, y las empleadas para el análisis de lenguas iberoamericanas».