Una nueva investigación ha reconstruido el genoma del progenitor del SARS-CoV-2 y su pedigrí inicial a partir de un conjunto de datos de genomas de coronavirus y ha descubierto que ya estaba circulando con una línea de tiempo anterior, al menos de seis a ocho semanas antes del primer genoma secuenciado en China, según publican sus autores en la revista Molecular Biology and Evolution.
La comunidad científica mundial ha estado investigando para resolver el enigma del origen del SARS-CoV-2 y, a pesar de los recientes esfuerzos de la Organización Mundial de la Salud (OMS), nadie ha identificado hasta la fecha el primer caso de transmisión humana, o "paciente cero" de la pandemia de Covid-19. Pero es necesario encontrarlo para entender mejor cómo el virus puede haber saltado primero de su huésped animal para infectar a los humanos, así como la historia de cómo el genoma viral del SARS-CoV-2 ha mutado con el tiempo y se ha extendido a nivel mundial.
Desde que se detectó la primera infección por el coronavirus en diciembre de 2019, se han secuenciado más de un millón de genomas del SARS-CoV-2 en todo el mundo, lo que revela que está mutando, aunque lentamente, a un ritmo de 25 mutaciones por genoma al año. El gran número de variantes emergentes, como la británica (B.1.1.7), la sudafricana (B.1.351), la sudamericana (P.1) y, ahora, la india (B.1.617), no solo han llegado a sustituir a las cepas dominantes anteriores en sus respectivas regiones, sino que siguen amenazando la salud mundial debido a su potencial para escapar a las vacunas y la terapéutica actuales.
"El virus del SARS-CoV-2 ya ha infectado a más de 145 millones de personas y ha causado tres millones de muertes en todo el mundo --recuerda Sudhir Kumar, director del Instituto de Genómica y Medicina Evolutiva de la Universidad de Temple, en Estados Unidos--. Nos propusimos encontrar el ancestro genético común de todas estas infecciones, al que llamamos genoma progenitor".
Este genoma progenitor (proCoV2) es la madre de todos los coronavirus SARS-CoV-2 que han infectado y siguen infectando a la gente en la actualidad. A falta de un paciente cero, Kumar y su equipo pueden haber encontrado ahora la siguiente mejor opción para ayudar a la labor detectivesca de la epidemiología molecular en todo el mundo.
"En esencia, los acontecimientos de diciembre en Wuhan representaron el primer evento de superdifusión de un virus que tenía todas las herramientas necesarias para causar una pandemia mundial nada más salir de la caja"
Encontraron que el progenitor dio lugar a una familia de cepas de coronavirus, cuyos miembros incluían las cepas encontradas en Wuhan (China) en diciembre de 2019. "En esencia, los acontecimientos de diciembre en Wuhan representaron el primer evento de superdifusión de un virus que tenía todas las herramientas necesarias para causar una pandemia mundial nada más salir de la caja", resume Kumar.
El grupo de Kumar estima que el progenitor del SARS-CoV-2 ya estaba circulando con una cronología anterior: al menos entre seis y ocho semanas antes del primer genoma secuenciado en China, conocido como Wuhan-1. "Esta cronología sitúa la presencia del proCoV2 a finales de octubre de 2019, lo que concuerda con el informe de un fragmento de proteína de espiga idéntica a la de Wuhan-1 a principios de diciembre en Italia, entre otras pruebas", apunta Sayaka Miura, autora principal del estudio.
"Hemos encontrado la huella genética del progenitor en enero de 2020 y posteriormente en múltiples infecciones por coronavirus en China y Estados Unidos. El progenitor se estaba extendiendo por todo el mundo meses antes y después de los primeros casos notificados de Covid-19 en China", añade Pond.
El grupo de Kumar también ha desarrollado huellas dactilares mutacionales intuitivas y una clasificación de letras griegas (ni, alfa, beta, gamma, delta y epsilon) para simplificar la categorización de las principales cepas, subcepas y variantes que infectan a un individuo o colonizan una región global, lo que puede ayudar a rastrear y contextualizar mejor el orden de aparición de nuevas variantes.
Muchos intentos anteriores de analizar conjuntos de datos tan grandes no tuvieron éxito debido a "la concentración en la construcción de un árbol evolutivo del SARS-CoV-2 --dice Kumar--. Este coronavirus evoluciona con demasiada lentitud, el número de genomas a analizar es demasiado grande y la calidad de los datos de los genomas es muy variable. Enseguida vi paralelismos entre las propiedades de estos datos genéticos del coronavirus con los datos genéticos de la propagación clonal de otra enfermedad nefasta, el cáncer".
Este genoma progenitor tenía una secuencia muy diferente de lo que algunos llaman la secuencia de referencia, que es la que se observó primero en China y se depositó en la base de datos GISAID SARS-CoV-2", relata Kumar.
"Hemos encontrado la huella genética del progenitor en enero de 2020 y posteriormente en múltiples infecciones por coronavirus en China y Estados Unidos. El progenitor se estaba extendiendo por todo el mundo meses antes y después de los primeros casos notificados de Covid-19 en China"
La coincidencia más estrecha se dio en ocho genomas muestreados entre 26 y 80 días después del virus más antiguo muestreado, del 24 de diciembre de 2019. Se encontraron múltiples coincidencias cercanas en todos los continentes muestreados y se detectaron hasta junio de 2020 (día 181 de la pandemia) en Sudamérica.
En general, los 140 genomas analizados por el grupo de Kumar solo contenían diferencias sinónimas con respecto al proCoV2. Es decir, todas sus proteínas eran idénticas a las correspondientes de proCoV2 en la secuencia de aminoácidos. La mayoría (93 genomas) de estas coincidencias a nivel de proteínas procedían de coronavirus muestreados en China y otros países asiáticos.
Estos patrones espacio-temporales sugerían que el proCoV2 ya poseía el repertorio completo de secuencias proteicas necesarias para infectar, propagar y persistir en la población humana mundial.
Descubrieron que el virus proCoV2 y sus descendientes iniciales surgieron en China, basándose en las primeras mutaciones del proCoV2 y en su localización. Además, también demostraron que existía una población de cepas con al menos tres diferencias mutacionales respecto al proCoV2 en el momento de la primera detección de casos de Covid-19 en China. Con las estimaciones de que el SARS-CoV-2 adquiere 25 mutaciones por año, esto significaba que el virus ya debía haber estado infectando a las personas varias semanas antes de los casos de diciembre de 2019.
Por ejemplo, descubrieron que la aparición de las variantes a del genoma del SARS-CoV-2 se produjo antes de los primeros informes sobre la Covid-19. Esto implica fuertemente la existencia de cierta diversidad de secuencias en las poblaciones ancestrales de SARS-CoV-2. Los 17 genomas muestreados en China en diciembre de 2019, incluido el genoma de referencia designado del SARS-CoV-2, llevan las tres variantes a. Pero se muestrearon 1.756 genomas sin variantes a en todo el mundo hasta julio de 2020. Por lo tanto, los primeros genomas muestreados (incluida la referencia designada) no eran las cepas progenitoras.
También predice que el genoma progenitor tenía descendencia que se estaba extendiendo por todo el mundo durante las primeras fases de COVID-19. Estaba preparado para infectar desde el principio.
"El progenitor tenía toda la capacidad que necesitaba para propagarse --asegura Pond--. Hay una sobreabundancia de cambios no sinónimos en la población. Lo que ocurrió entre los murciélagos y los humanos sigue sin estar claro, pero el proCoV2 ya podría infectar a escala pandémica".
En total, han identificado siete grandes linajes evolutivos y la naturaleza episódica de su propagación global. El genoma del proCoV2 dio lugar a muchos linajes descendientes importantes, algunos de los cuales surgieron en Europa y América del Norte tras la probable génesis de los linajes ancestrales en China.
"Las cepas asiáticas fundaron toda la pandemia --precisa Kumar--. Pero con el tiempo, muchas variantes que evolucionaron en otros lugares están infectando mucho más a Asia". Sus análisis basados en mutaciones también establecieron que los coronavirus norteamericanos albergan firmas genómicas muy diferentes a las que prevalecen en Europa y Asia.