El genoma es el “libro” que contiene las instrucciones del ADN para la vida de un organismo. Para leer dicho libro, se emplea la secuenciación, que ha evolucionado hacia la lectura de fragmentos cada vez más largos del genoma. En la mejora de esta lectura, las nuevas tecnologías pueden ser un gran aliado de los investigadores.
En este sentido, ahora un grupo de investigación, liderado por el Instituto de Biología Integrativa de Sistemas (I2SysBio), centro mixto del Consejo Superior de Investigaciones Científicas (CSIC) y la Universitat de València (UV), ha publicado una mejora de un programa informático propio capaz de descubrir nuevos tránscritos.
Los tránscritos son moléculas de ARN que los genes emplean para sintetizar proteínas y crear tejidos, a partir de su secuenciación con instrumentos de lectura larga. Además, permiten asignarles una función en la formación del organismo. Frente a la lectura de fragmentos cortos, que analiza en torno a 200 nucleótidos, las letras que componen los genes, los métodos de lectura larga permiten obtener lecturas 100 veces más largas aún.
“Las técnicas de lectura larga analizan mejor la complejidad de los tránscritos y el transcriptoma humanos”
Esto se traduce en unos 20.000 nucleótidos. Así, la secuenciación de lectura larga consiste en la tercera generación de métodos de secuenciación del genoma, y deja menos huecos en la información del genoma para rellenar mediante herramientas bioinformáticas.
Debido a esto, Nature Methods consideró la herramienta como Método del Año 2022. Solo unos años antes, en 2018, la investigadora Ana Conesa desarrolló un programa informático conocido como SQANTI, para analizar la información que se extraía mediante estos métodos de lectura larga.
Ahora, su equipo de investigación en el I2SysBio publica en Nature Methods una mejora sustancial de este software, que se puede usar libremente en los principales sistemas comerciales que emplean secuenciación de lectura larga, Pacific Biosciences (PacBio) y Oxford Nanopore Technologies (ONT).
La nueva versión SQANTI3, soluciona algunos problemas anteriores, derivados de la degradación del ARN o del análisis único de cada molécula, para introducir mejoras notables. Así, este programa es capaz de descubrir nuevos tránscritos que no estaban en las bases de datos del genoma que usan estos programas informáticos.
Además, mediante técnicas de Inteligencia Artificial, el software puede asignar información funcional para el nuevo tránscrito, “algo esencial para entender la complejidad funcional del organismo y de las enfermedades”, remarca Conesa. Para desarrollar este programa informático, se ha empleado el clúster de computación Garnatxa del I2SysBio, que dispone de 15 nodos de computación, capaces de ofrecer 950 hilos de cómputo en paralelo.
“Las técnicas de lectura larga analizan mejor la complejidad de los tránscritos y el transcriptoma humanos”, opina Conesa. Esto identifica la porción del genoma que se lee en cada célula para dar lugar a tejidos y órganos. De este modo, un único gen puede dar lugar, mediante pequeños cambios en la estructura de ARN que codifica, una gran divesrisdad de tránscritos, y con ellos, de proteínas con distintas funciones celulares.
“La secuenciación de lectura corta no puede resolver este puzle. La lectura larga reconstruye mejor la complejidad funcional del transcriptoma humano, algo clave para estudiar determinadas enfermedades, sobre todo de tipo neurológico y en cáncer”, sostiene la investigadora del CSIC.
"La lectura larga reconstruye mejor la complejidad funcional del transcriptoma humano, algo clave para estudiar determinadas enfermedades, sobre todo de tipo neurológico y en cáncer”
El uso del programa informático es libre, y ya cuenta con “miles de usuarios en todo el mundo”, según Conesa. Sin embargo, “el éxito de esta herramienta requiere también de más personal técnico, para atender a las numerosas peticiones que recibimos”. De este modo, la investigadora ha coliderado la reciente puesta en marcha de la Conexión CSIC de Biología Computacional y Bioinformática, una plataforma para conectar personas, métodos y recursos en estos ámbitos en el CSIC.
El grupo Genómica de la Expresión Génica, que dirige Ana Conesa en el I2SysBio participa en ELIXIR, una de las infraestructuras estratégicas para el Foro Estratégico Europeo sobre Infeaestructuras de Investigación (ESFRI), que permite a laboratorios de ciencias de la vida de toda Europa compartir y almacenar sus datos.
En el desarrollo de SQANTI3, colaboraron la Universidad de Florida y Pacific Biosciences, una de las empresas que comercializa la tecnología para la secuenciación de lectura larga mediante su sistema PacBio, que recomienda el uso del software español para analizar sus datos.