El primer genoma microbiano logró secuenciarse en 1995. Desde entonces, los científicos han reconstruido la composición genómica de cientos de miles de microorganismos e incluso han ideado métodos para realizar un censo de comunidades bacterianas en lugares como la piel, el intestino, el suelo, el agua y muchos otros en muestras masivas, lo que llevó a la aparición de un nuevo campo de estudio científico: la metagenómica.
Sin embargo, a nivel práctico, analizar datos metagenómicos puede resultar una tarea tremendamente compleja y desalentadora, hasta el punto de asemejarse a intentar armar varios puzzles enormes sin una imagen de referencia. En esta línea, el experto en inteligencia artificial (IA) gráfica de la Universidad Rice, Santiago Segarra, y el biólogo computacional, Todd Treangen, decidieron abordar este reto computacional, y se unieron para explorar las posibilidades que ofrece el análisis de datos por medio de IA a la hora de potenciar la investigación metagenómica.
Una de las herramientas que desarrollaron aprovecha la estructura de este gráfico para determinar qué fragmentos de ADN aparecen repetidamente entre microbios o dentro del mismo microorganismo"
En concreto, la pareja de científicos se focalizó en dos tipos de datos que hacen que el análisis metagenómico sea particularmente desafiante (repeticiones y variantes estructurales) y desarrolló herramientas para manejar estos tipos de datos que superen a los métodos actuales. En el caso de las repeticiones, se trata de secuencias de ADN idénticas que ocurren repetidamente tanto en todo el genoma de organismos individuales como en múltiples genomas en una comunidad de organismos.
“El ADN de una muestra metagenómica de múltiples organismos se puede representar como un gráfico”, afirma Segarra, profesor asistente de ingeniería eléctrica e informática, quien explica que una de las herramientas que desarrollaron aprovecha la estructura de este gráfico para determinar qué fragmentos de ADN aparecen repetidamente entre microbios o dentro del mismo microorganismo". Las repeticiones son interesantes porque desempeñan un papel importante en procesos biológicos como la respuesta bacteriana a cambios en su entorno o la interacción de los microbiomas con los organismos huéspedes.
Lo que lo distingue a GraSSRep de estos enfoques anteriores es la falta de parámetros o referencias predefinidas que informen sobre cómo se procesan los datos
En términos generales, el seguimiento de la historia o la dinámica de las repeticiones en un genoma bacteriano puede arrojar luz sobre las estrategias de adaptación o evolución de los microorganismos. Es más, las repeticiones a veces pueden ser en realidad virus disfrazados o bacteriófagos. Los fagos en realidad parecen repeticiones, por lo que se puede rastrear la dinámica bacteria-fago basándose en las repeticiones contenidas en los genomas", dijo Treangen, profesor asociado de informática. "Esto podría proporcionar pistas sobre cómo deshacerse de las bacterias difíciles de matar u ofrecer una imagen más clara de cómo estos virus interactúan con una comunidad bacteriana".
Bajo el nombre de GraSSRep, el método combina aprendizaje autosupervisado, un proceso de aprendizaje automático en el que un modelo de IA se entrena para distinguir entre entradas ocultas y disponibles, y graficar redes neuronales, sistemas que procesan datos que representan objetos y sus interconexiones como gráficos. Anteriormente, cuando se utilizaba un enfoque basado en gráficos para llevar a cabo la detección repetida, los investigadores utilizaban especificaciones predefinidas sobre qué buscar en los datos del gráfico. Lo que lo distingue a GraSSRep de estos enfoques anteriores es la falta de parámetros o referencias predefinidas que informen sobre cómo se procesan los datos.
"Nuestro método aprende cómo utilizar mejor la estructura del gráfico para detectar repeticiones en lugar de depender de la entrada inicial"
"Nuestro método aprende cómo utilizar mejor la estructura del gráfico para detectar repeticiones en lugar de depender de la entrada inicial", desveló Segarra, quien aclara que “el aprendizaje autosupervisado permite que esta herramienta se entrene a sí misma en ausencia de una verdad fundamental que establezca qué es una repetición y qué no. Cuando manejas una muestra metagenómica, no necesitas saber nada sobre lo que hay allí para analizarla”. Lo mismo ocurre en el caso de otro método de análisis metagenómico desarrollado conjuntamente por Segarra y Treangen: la detección de variantes estructurales sin referencias en microbiomas mediante gráficos de coensamblaje de lectura larga, o ñandú.
De esta manera, mientras que GraSSRep está diseñado para lidiar con repeticiones, el ñandú maneja variantes estructurales, que son alteraciones genómicas de 10 pares de bases o más que son relevantes para la medicina y la biología molecular debido a su papel en diversas enfermedades, la regulación de la expresión genética, la dinámica evolutiva y la promoción de la diversidad genética dentro de las poblaciones y entre especies. "Identificar variantes estructurales en genomas aislados es relativamente sencillo, pero es más difícil hacerlo en metagenomas donde no existe un genoma de referencia claro para ayudar a categorizar los datos", dijo Treangen.
"Una cosa que estamos estudiando es reemplazar los algoritmos existentes con los nuestros y ver cómo eso puede mejorar el rendimiento de estos ensambladores metagenómicos muy utilizados"
Actualmente, uno de los métodos más utilizados para procesar datos metagenómicos es a través de genomas ensamblados en metagenomas o MAG. “Estos ensambladores de novo o guiados por referencia son herramientas bastante bien establecidas que implican todo un proceso operativo con detección repetida o identificación de variantes estructurales, como solo algunas de sus funcionalidades”, afirmó Segarra. "Una cosa que estamos estudiando es reemplazar los algoritmos existentes con los nuestros y ver cómo eso puede mejorar el rendimiento de estos ensambladores metagenómicos muy utilizados".
Rhea no necesita genomas de referencia ni MAG para detectar variantes estructurales, y superó a los métodos que se basan en parámetros preespecificados cuando se probó con dos metagenomas simulados. "Esto fue particularmente notable porque obtuvimos una lectura mucho más granular de los datos que cuando utilizamos genomas de referencia", afirmó Segarra. "La otra cosa que estamos investigando actualmente es aplicar la herramienta a conjuntos de datos del mundo real y ver cómo los resultados se relacionan con los procesos biológicos y qué conocimientos esto podría brindarnos", concluyó.