Conferencia de Directores y Decanos de Ingeniería Informática

Una herramienta de ‘big data’ de la Universidad de Santiago acelera la secuenciación de ADN

Un trabajo del CiTIUS (Centro Singular de Investigación en Tecnoloxías da Información) de la Universidad de Santiago de Compostela y la Fundación Pública Galega de Medicina Xenómica ha creado BigBWA, una herramienta de big data capaz de reducir drásticamente los tiempos de ejecución del Burrows-Wheeler Aligner (BWA), el software de referencia en genómica (secuenciación de ADN).

Imagine, señala la nota de CiTIUS, que está ante un paisaje tan extenso que no puede abarcar en una única fotografía. Si su dispositivo se lo permite, tal vez decida capturar la escena desde distintos ángulos para obtener una panorámica que refleje con mayor realismo su entorno, pero una vez haya concluido la fase óptica, observará cómo la imagen final –completamente ensamblada- tardará, al menos, unos segundos en aparecer: el tiempo necesario para procesar toda la información.

La creación de una panorámica a partir de imágenes adyacentes es sólo un ejemplo menor, que ilustra la creciente demanda de recursos computacionales a pequeña escala. Pero donde realmente juegan un papel crucial las tecnologías avanzadas de procesamiento (Computación de Altas Prestaciones o HPC, por sus siglas en inglés) es en ámbitos en los que se manejan grandes cantidades de datos, como sucede con frecuencia en ciertas áreas de investigación, como la genómica.

ADN

La secuenciación del ADN es un proceso complejo y costoso, que ha de ser abordado a lo largo de fases sucesivas. Como en el ejemplo del paisaje, los sistemas de secuenciación genética capturan cadenas o fragmentos de ADN a partir de una muestra, que más tarde habrán de ser alineados con un genoma de referencia de cara a su posterior estudio e interpretación.

De entre todas las fases implicadas en la secuenciación del genoma, el alineamiento es una de las más costosas a nivel computacional; una barrera que se manifiesta de manera más acuciante conforme aumenta el número de cadenas de ADN que han de ser alineadas, pudiendo alcanzar cifras cercanas a millones, o incluso miles de millones –en la actualidad, las tecnologías de secuenciación más punteras generan hasta 6.000 millones de lecturas de cadenas de ADN en cada ejecución-.

Procesar un volumen de información de esa magnitud en un servidor, usando la herramienta de referencia en el campo, BWA, exige un tiempo de ejecución superior a cuatro días; una respuesta excesivamente lenta, que ha llevado a los profesionales a demandar soluciones para incrementar el rendimiento de los alineadores con el objetivo de obtener resultados en un tiempo razonable.

BigBWA

Los investigadores del CiTIUS presentan ahora BigBWA, una nueva herramienta que permite aprovechar las ventajas de las tecnologías Big Data para incrementar el rendimiento de las operaciones de alineado acometidas por BWA. Para ello se sirve de Hadoop, la implementación de código abierto más exitosa del modelo de programación MapReduce introducido por Google; de esta manera, el programador puede concentrar todos sus esfuerzos en el desarrollo del algoritmo llamado a resolver el problema científico que se plantea, ya que el propio Hadoop se encarga de distribuir la carga computacional entre los distintos procesadores o núcleos (cores) de computación, de forma totalmente automática y transparente al usuario.

Así, mediante la utilización de este software los investigadores lograron reducir el tiempo necesario para alinear los 6.000 millones de cadenas de ADN a tan sólo 8 horas usando un pequeño clúster de computación (6 servidores). En la práctica, esta mejora supone multiplicar por 12 la velocidad actual de cómputo, un salto cualitativo que puede aumentar mucho más en caso de disponer de un mayor número de servidores.

La principal ventaja de la herramienta es que consigue dividir la labor de alineamiento de secuencias de ADN en multitud de procesos independientes que pueden ejecutarse al mismo tiempo –tanto en distintos procesadores como en distintos servidores-.