Al adaptar modelos de inteligencia artificial, conocidos como modelos de lenguaje a gran escala, los investigadores del Instituto de Tecnología de Massachusetts (MIT) han logrado grandes avances en su capacidad para predecir la estructura de una proteína a partir de su secuencia. Sin embargo, este enfoque no ha tenido tanto éxito en el caso de los anticuerpos, entre otras cuestiones, debido a la hipervariabilidad observada en este tipo de proteínas.
Para superar esa limitación, los investigadores del MIT han desarrollado una técnica computacional que permite que los modelos de lenguaje de gran tamaño predigan las estructuras de los anticuerpos con mayor precisión. Este trabajo podría permitir a los investigadores examinar millones de posibles anticuerpos para identificar aquellos que podrían usarse para tratar el SARS-CoV-2 y otras enfermedades infecciosas.
En este sentido, Bonnie Berger, profesora de Matemáticas de la Cátedra Simons y directora del grupo de Computación y Biología del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, explica que a través de este método consiguen muchas cosas que con la tecnología anterior no podían. “Si lográsemos ayudar a evitar que las compañías farmacéuticas realicen ensayos clínicos con el producto equivocado, realmente ahorraríamos mucho dinero”, ha señalado.
La técnica, que se centra en modelar las regiones hipervariables de los anticuerpos, también tiene potencial para analizar repertorios completos de anticuerpos de personas individuales. Esto podría ser útil a la hora de estudiar la respuesta inmunitaria de personas que lo realizan de manera excepcional a enfermedades como el VIH, para ayudar a averiguar por qué sus anticuerpos combaten el virus de manera tan eficaz.
“Si lográsemos ayudar a evitar que las compañías farmacéuticas realicen ensayos clínicos con el producto equivocado, realmente ahorraríamos mucho dinero”
En los últimos años, predecir estas estructuras se ha vuelto mucho más fácil gracias a programas de inteligencia artificial como AlphaFold. Según indican los investigadores, programas como ESMFold y OmegaFold, se basan en grandes modelos de lenguaje que, originalmente, se desarrollaron para analizar grandes cantidades de texto, lo que a su vez les permite aprender a predecir la siguiente palabra de una secuencia.
En cuanto a las regiones hipervariables, indican que varían en longitud, pero por lo general contienen menos de 40 aminoácidos. Se ha estimado que el sistema inmunológico humano puede producir hasta un trillón de anticuerpos diferentes, modificando así la secuencia de los aminoácidos y ayudando a garantizar que el cuerpo pueda responder ante una gran variedad de antígenos potenciales.
“Parte de la razón por la que los modelos lingüísticos pueden predecir bien la estructura de las proteínas es que la evolución restringe estas secuencias de manera que el modelo puede descifrar lo que esas restricciones habrían significado. Es similar a aprender las reglas de la gramática observando el contexto de las palabras en una oración, lo que permite averiguar lo que significa”, resalta Singh.
Con el objetivo de modelar estas regiones hipervariables, los investigadores crearon dos módulos que se basan en modelos de lenguaje de proteínas existetentes. Uno de ellos, se entrenó con secuencias hipervariables de alrededor de 3000 estructuras de anticuerpos encontradas en el Protein Data Bank (PDB), lo que le permitió aprender qué secuencias tienden a generar estructuras similares. En cuanto al otro, se trata de un módulo entrenado con datos que correlacionan alrededor de 3.700 secuencias de anticuerpos con la fuerza con la que se unen a tres antígenos diferentes.
“Parte de la razón por la que los modelos lingüísticos pueden predecir bien la estructura de las proteínas es que la evolución restringe estas secuencias de manera que el modelo puede descifrar lo que esas restricciones habrían significado"
El modelo computacional resultante, conocido como AbMap, puede predecir las estructuras de los anticuerpos y la fuerza de unión en función de sus secuencias de aminoácidos. Para demostrar la utilidad de este modelo, los investigadores lo utilizaron para predecir las estructuras de los anticuerpos que neutralizarían fuertemente la proteína de la espícula del virus SARS-CoV-2. En este sentido, comenzaron con un conjunto de anticuerpos que se había previsto que se unirían a este objetivo y luego generaron millones de variantes modificando las regiones hipervariables. Su modelo pudo identificar las estructuras de anticuerpos que serían las más exitosas, con mucha más precisión que los modelos tradicionales de estructura de proteínas basados en grandes modelos de lenguaje.
Posteriormente, los investigadores dieron un paso más y agruparon los anticuerpos en grupos que tenían estructuras similares. Eligieron anticuerpos de cada uno de estos grupos para realizar pruebas experimentales, en colaboración con investigadores de Sanofi. Esos experimentos descubrieron que el 82% de estos tenían una mayor fuerza de unión que los anticuerpos originales que se utilizaron en el modelo.