Un sistema para big data diseñado en Pamplona construye modelos predictivos miles de veces mejores que los actuales

El nuevo algoritmo del ingeniero informático Mikel Elkano Ilintxeta mantiene la precisión con modelos compuestos por apenas una veintena de reglas.

Fte.: Pamplona actual

Mikel Elkano Ilintxeta (Pamplona, 1991), investigador del Instituto de Smart Cities (ISC) de la Universidad Pública de Navarra (UPNA), ha diseñado un nuevo sistema de clasificación basado en reglas difusas (SCBRD) para “big data” (datos masivos), que es capaz de construir modelos predictivos que pueden llegar a ser hasta 200.000 veces más compactos que los generados por los SCBRD disponibles hasta la fecha, manteniendo, además, la precisión en las predicciones.

“El SCBRD más preciso hasta la fecha requería entre cinco y seis millones de reglas para lograr predicciones precisas, haciendo prácticamente imposible que el usuario pudiese interpretar las predicciones. Con este nuevo algoritmo o herramienta matemática, es posible mantener la precisión con modelos compuestos por apenas entre veinte y treinta reglas fácilmente interpretables”, explica el investigador, cuyo trabajo forma parte de su tesis doctoral leída en la institución académica y calificada con sobresaliente “cum laude”. Este avance en el campo de la Inteligencia Artificial (y, más concretamente, en la Ciencia de Datos) puede ser aplicado en diversos campos, como en la medicina, ya que ayudará a los profesionales sanitarios a tomar decisiones basándose en los miles de datos recogidos en historiales clínicos, y también en la física. Así, gracias a los modelos obtenidos, el también investigador de Navarrabiomed (centro mixto de investigación biomédica de la institución académica y el Gobierno de Navarra) ha sido capaz de “extraer las variables más importantes a la hora de identificar bosones de Higgs y partículas supersimétricas, si bien la precisión de los SCBRD no alcanza todavía la de otros modelos predictivos no interpretables”.

Los sistemas de clasificación basados en reglas difusas (SCBRD) proporcionan un modelo formado por una serie de reglas que contienen etiquetas lingüísticas interpretables por el ser humano, lo que les permite explicar el razonamiento llevado a cabo al realizar una predicción. Este tipo de reglas posibilita a los SCBRD no solo explicar el porqué de las predicciones, sino también manejar la incertidumbre proveniente de información imprecisa. De ahí su importancia.

INTERPRETACIÓN DE LAS PREDICCIONES

Como señala Mikel Elkano Ilintxeta, “en la actualidad, la ingente cantidad de información producida y gestionada por el ser humano excede la capacidad de cómputo y almacenamiento de las máquinas convencionales modernas”. “En el caso de los SCBRD diseñados para ‘big data’, además de la dificultad añadida de la computación distribuida, la gran cantidad de datos que debe procesarse hace que los modelos predictivos obtenidos sean demasiado complejos y contengan un número excesivamente elevado de reglas, lo que hace que las predicciones sean más difíciles de comprender e interpretar”, indica Mikel Elkano Ilintxeta, cuya tesis doctoral ha sido dirigida por Edurne Barrenechea Tartas y Mikel Galar Idoate, investigadores del Instituto ISC de la UPNA y de Navarrabiomed.

El algoritmo recogido en la tesis doctoral “reduce considerablemente el número de reglas y esta circunstancia favorece su empleo, por ejemplo, en medicina, para ayudar a los especialistas a tomar decisiones basándose en historiales clínicos”. “Dado que cada vez disponemos de más información acerca de los pacientes, el uso de algoritmos de aprendizaje automático permite aprovechar todos estos datos para poder detectar patrones existentes entre diferentes pacientes y extraer las variables más influyentes a la hora de predecir una cierta patología”, concluye el investigador.

BREVE CURRÍCULUM

Mikel Elkano Ilintxeta cursó, sucesivamente, Ingeniería Técnica en Informática de Gestión e Ingeniería Informática en la Universidad Pública de Navarra. Con esta última titulación obtuvo el Premio al Mejor Proyecto Fin de Carrera por la Asociación Española para la Inteligencia Artificial (AEPIA) en la Escuela de Verano de Inteligencia Artificial de 2014. Posteriormente, completó su formación con un Máster en Psicobiología y Neurociencia Cognitiva en la Universidad Autónoma de Barcelona (2015) y una estancia de investigación en Monash University (Melbourne, Australia) en 2016 para trabajar en el campo de la neurociencia computacional. Sus investigaciones se han reflejado en nueve artículos publicados en revistas científicas de alto impacto y en la presentación de siete trabajos en congresos internacionales.

Noticia completa aquí