Conferencia de Directores y Decanos de Ingeniería Informática

Una tesis de la UPM propone varios modelos para el tratamiento automático del lenguaje

Miguel Ángel de la Villa, investigador de la Facultad de Informática de la Universidad Politécnica de Madrid, propone en su tesis doctoral, presentada en febrero, varios modelos lingüísticos de tratamiento automático de la lengua.

Los modelos, concebidos desde una perspectiva de independencia con respecto a la lengua, permiten tanto construir automáticamente conocimiento enciclopédico a partir de textos como resolver el problema de la anáfora.

El trabajo, titulado Método para la Construcción Automática de Ontologías Basado en Patrones Lingüísticos, supone un avance, tanto en el área de la Lingüística como en el tratamiento automático de la lengua, de cara a hacer sistemas que permitan en el futuro sobrepasar los problemas del multilingüismo.

Así, uno de los modelos propuestos resuelve el fenómeno lingüístico de la anáfora (expresiones cuya interpretación depende de otra expresión presente en el contexto del discurso). El modelo acomete el problema analizando el significado del texto con independencia de la lengua con la que está escrito, permitiendo interpretar las anáforas presentes en textos de diferentes idiomas.

Asimismo, propone un modelo que permite extraer información útil de grandes cantidades de documentos y construir así de forma automática lo que se denomina conocimiento enciclopédico. La propuesta podría ser la base de los llamados repositorios de conocimiento.

La tesis, realizada a lo largo de varios años, ha sido parcialmente publicada en medios internacionales en varias ocasiones y ha sido dirigida por Jesús Cardeñosa, director del Grupo de Validación y Aplicaciones Industriales de la UPM, al que pertenece Villa. Ambos trabajan en la empresa Dail Software, spin-off de la universidad.