Conferencia de Directores y Decanos de Ingeniería Informática

Un grupo de la UGR, premiado por su trabajo con ‘big data’ y proteínas

Científicos de la Universidad de Granada, pertenecientes al grupo de investigación Soft Computing y Sistemas de Información Inteligentes (SCI2S), han ganado la ECBDL’14 Big Data Competition, un concurso internacional celebrado este verano en Vancouver (Canadá), con un trabajo relacionado con las proteínas.

Investigadores participantes en la competición. De izquierda a derecha: Sara del Río, Isaac Triguero, Victoria López, Francisco Herrera y José Manuel Benítez. Fuente: UGR.

El concurso se celebró en el marco del congreso GECCO-2014 (Conferencia sobre Computación Genética y Evolutiva). El certamen, uno de los más prestigiosos del mundo en este ámbito de investigación, premia los mejores trabajos relacionados con los “big data”, conjuntos de datos de un elevado tamaño cuyo volumen, diversidad y complejidad requieren el uso de nuevas arquitecturas, técnicas, algoritmos y análisis para gestionar y extraer el valor y conocimiento oculto en ellos.

La ECBDL’14 Big Data Competition, informa la UGR en una nota de prensa, se ha centrado en esta edición en un problema de clasificación en bioinformática. En concreto, los participantes debían trabajar sobre un conjunto de datos del campo de la predicción de estructuras de proteínas, en el que se pretendía conseguir un predictor para distinguir un conjunto de estructuras a partir de las ya conocidas, especialmente la detección de contactos residuo-residuo en las proteínas.

El conjunto de entrenamiento utilizado en la competición constaba de dos clases, con alrededor de 32 millones de instancias con 631 atributos ocupando 56,7 gigabytes de datos. Para validar la utilidad de los métodos de la competición se consideró un conjunto de test con unos 2,8 millones de ejemplos que se almacenan aproximadamente en 5 gigabytes de datos.

El equipo de la UGR que ganó la competición propuso una combinación de técnicas de preprocesamiento de datos (sobremuestreo de alta ratio sobre la clase minoritaria y selección de características basada en pesos) y multiclasificadores basados en árboles de decisión utilizando MapReduce. En segundo lugar quedó la Universidad de Newcastle (Reino Unido), y en tercero la Universidad de Nueva Gales del Sur (Australia).

El alto potencial del “big data” ha sido reconocido de inmediato debido a su influencia sobre problemas de diversos campos de conocimiento. “Entender la economía global, obtener una mejor planificación de servicios públicos, desarrollar investigaciones científicas o buscar nuevas oportunidades de negocio son algunas de las grandes aplicaciones relacionadas con estos grandes repositorios de datos”, apunta el profesor Francisco Herrera, director del grupo de investigación.