Un grupo de investigación, liderado por el Instituto de Biología Integrativa de Sistemas (I2SysBio), el centro mixto del Consejo Superior de Investigaciones Científicas (CSIC) y la Universitat de València (UV), ha publicado en Nature Methods un estudio pionero en el cual han descubierto una mayor diversidad de ARN, hecho que podría tener grandes repercusiones en el estudio de enfermedades, envejecimiento y la "misma complejidad" de la vida en la Tierra.
En el estudio se analizaron diferentes tecnologías y varias herramientas informáticas disponibles para la secuenciación de lectura larga de las moléculas del ARN, moléculas fundamentales para que los genes cumplan su función. Además, este trabajo evalúa las fortalezas y debilidades de las dos principales plataformas de secuenciación de lectura larga de ARN, 'Oxford Nanopore Technologies' y 'Pacific Biosciences', así como los métodos computacionales utilizados para evaluar los datos.
Durante años, un consorcio internacional conocido como Proyecto de Evaluación de Anotación del Genoma de Lectura Larga de ARN-Seq (LRGASP, por sus siglas en inglés) evaluó los métodos y tecnologías en experimentos de secuenciación de lectura larga de ARN. Ahora, este consorcio global ha publicado los resultados de este esfuerzo.
"Pequeños cambios en el paso de ADN a ARN pueden dar lugar a patologías"
El ARN es el compuesto molecular de las células que transmite la información del ADN a las proteínas mediante los procesos de transcripción y traducción. La secuenciación de lectura larga del ARN permite observar moléculas completas e identificar pequeños cambios en la forma en la que los genes dan lugar a proteínas.
Esos cambios son críticos para la constitución de organismos complejos como los seres humanos. Asimismo, los fallos en su síntesis se asocian a diversas enfermedades, por lo que la secuenciación de lectura larga del ARN se usa para identificar estos cambios y asociarlos con procesos biológicos diversos.
La profesora de investigación del CSIC en el I2SysBio, Ana Conesa, ha indicado que "aunque el genoma humano ha sido secuenciado de punta a punta, los investigadores se enfrentan a grandes desafíos para definir con exactitud cómo los genes dan lugar a la enorme diversidad de moléculas de ARN y proteínas que forman un ser vivo". "Este conocimiento es muy importante porque pequeños cambios en el paso de ADN a ARN pueden dar lugar a patologías", ha sostenido.
El equipo ha evaluado las predicciones de ARN propuestas por 14 laboratorios bioinformáticos de todo el mundo, tras utilizar el software SQANTI3, desarrollado por este grupo en el I2SysBio, una de las herramientas bioinformáticas de referencia en el campo. También generaron más de 427 millones de secuencias de lecura larga que fueron analizadas, datos que procedían de humanos, ratones y manatíes. Este último permitió probar los métodos en una especie sin un genoma de referencia.
Palacios: "Era importante probar las técnicas en una especie no modelo, ya que cada vez es más común ver estudios con secuenciación de lectura larga de ARN en estos organismos no tan bien estudiados"
El investigador predoctoral del I2SysBio y primer firmante de este trabajo, Francisco J. Pardo Palacios, ha asegurado que "era importante probar las técnicas en una especie no modelo, ya que cada vez es más común ver estudios con secuenciación de lectura larga de ARN en estos organismos no tan bien estudiados".
Tras el análisis, el consorcio produjo un conjunto de recomendaciones para la secuenciación de ARN. En general, los enfoques de secuenciación de lectura larga funcionan mucho mejor que la secuenciación de lectura corta, tras ser la calidad de las lecturas el factor clave de precisión.
Además, el equipo encontró una cantidad sorprendente de tránscritos no documentados en los genomas humanos y de ratones. "Hemos visto que existe una diversidad de ARNs mucho más grande de lo pensábamos y estamos viendo que cada individuo, incluso cada célula, tiene un transcriptoma propio y personal. El siguiente paso es averiguar la relevancia que tiene esto en la enfermedad, el envejecimiento y la diversidad de especies", resume Conesa.
El trabajo concluye que no existe un único enfoque para la secuenciación de lectura larga de ARN. El artículo describe las mejores prácticas en función de los diferentes objetivos que puedan tener los estudios individuales. En esta línea, las diferentes tecnologías existentes presentan diferencias en las tasas de error, rendimiento de secuenciación y la longitud de lectura, por lo que los investigadores deben priorizar cuál es más importante para su área de estudio.