La búsqueda de tratamientos para diversas enfermedades, como el cáncer o las enfermedades cardíacas, es uno de los grandes retos de los investigadores y trabajar con bibliotecas de compuestos farmacológicos puede aportar soluciones exitosas. Sin embargo, el tiempo necesario para probar experimentalmente cada uno de estos compuestos contra todos los posibles objetivos es prohibitivo. Por eso, en los últimos años, los investigadores han recurrido a procesos informáticos para agilizar el descubrimiento de medicamentos. Pero muchos de estos métodos también conllevan mucho tiempo, ya que la mayoría de ellos calculan la estructura tridimensional de cada proteína objetivo a partir de su secuencia de aminoácidos para predecir con qué moléculas de medicamentos podría interactuar.
Recientemente, un equipo de investigadores del MIT y la Universidad Tufts ha desarrollado un enfoque informático alternativo basado en un tipo de algoritmo de inteligencia artificial conocido como “modelo de lenguaje a gran escala”. Estos modelos, como el conocido ChatGPT, pueden analizar grandes cantidades de texto y determinar qué palabras (o, en este caso, aminoácidos) tienen más probabilidades de aparecer juntas. Este nuevo sistema, denominado ConPLex, es capaz de relacionar proteínas “objetivo” con posibles moléculas de medicamentos sin necesidad de realizar el costoso trabajo informático de calcular las estructuras de las moléculas.
Utilizando este método, los investigadores pueden analizar más de 100 millones de compuestos en un solo día, mucho más que cualquier modelo existente
La jefa del grupo de Informática y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, Bonnie Berger, señala que “esto aborda la necesidad de un cribado in silico eficiente y preciso de posibles candidatos a medicamentos, y que el modelo sea escalable permite evaluaciones a gran escala para determinar los efectos no deseados fuera del objetivo, el reposicionamiento de medicamentos y el impacto de las mutaciones en la unión de medicamentos”.
El modelo de lenguaje desarrollado por el equipo del MIT codifica información sobre más de 20.000 proteínas en representaciones numéricas significativas de cada secuencia de aminoácidos, capturando las asociaciones entre secuencia y estructura. "Con este sistema, incluso las proteínas que tienen secuencias muy diferentes pero que potencialmente tienen estructuras o funciones similares pueden representarse de manera similar en este sistema de lenguaje, y podemos aprovechar eso para hacer nuestras predicciones", señala Samuel Sledzieski, graduado del MIT, y uno de los autores principales de la investigación.
En el estudio, los investigadores aplicaron este modelo para determinar qué secuencias de proteínas interactuarán con moléculas de medicamentos específicos
Los investigadores “enseñaron” al sistema las interacciones ya conocidas entre proteínas y medicamentos, lo que permitió al programa asociar características específicas de las proteínas con capacidad de unirse a moléculas de medicamentos, sin necesidad de calcular la estructura tridimensional de las moléculas.
Para evitar falsos positivos en la predicción de interacciones fármaco-proteína, los investigadores incorporaron una etapa de entrenamiento basada en el aprendizaje contrastivo, enseñando al modelo a distinguir entre fármacos "reales" e impostores. Luego, probaron el modelo examinando una biblioteca de aproximadamente 4,700 moléculas de medicamentos candidatas y su capacidad de unirse a un conjunto de 51 enzimas conocidas como proteína cinasas.
Este enfoque tiene en cuenta la flexibilidad de las estructuras de las proteínas, que pueden ser "onduladas" y adoptar formas ligeramente diferentes cuando interactúan con una molécula de un fármaco
Los resultados demostraron que el modelo fue capaz de identificar con precisión las interacciones fármaco-proteína, seleccionando 19 pares para pruebas experimentales. De estos, 12 pares demostraron una fuerte afinidad de unión, mientras que los demás pares no mostraron ninguna afinidad. Cuatro de los pares se unieron con una afinidad extremadamente alta, lo que indica un gran potencial para la inhibición de proteínas.
Aunque el enfoque se centró principalmente en el cribado de moléculas de medicamentos pequeñas, los investigadores también están trabajando en aplicar este método a otros tipos de medicamentos, como los anticuerpos terapéuticos.
El modelo podría ser útil para realizar pruebas de toxicidad en compuestos medicinales para asegurarse de que no tengan efectos secundarios no deseados antes de probarlos en animales
Este sistema tiene el potencial de reducir los costes del descubrimiento de nuevos medicamentos al predecir de manera más precisa cuáles tienen más probabilidades de ser efectivos, y reduciendo así las tasas de fracaso en la etapa de desarrollo. Los investigadores esperan seguir mejorando este modelo y explorar formas de incorporar información estructural adicional para mejorar aún más las predicciones de interacción fármaco-proteína.
Eytan Ruppin, jefe del Laboratorio de ciencia de datos sobre el cáncer del Instituto Nacional del Cáncer, que no ha participado en la investigación, señaló que este modelo "es un avance significativo en la predicción de la interacción entre fármaco-objetivo y abre oportunidades adicionales para futuras investigaciones para mejorar aún más sus capacidades".
En resumen, el nuevo modelo ConPLex desarrollado por investigadores del MIT y la Universidad Tufts representa un avance importante en el campo del descubrimiento de nuevos medicamentos. Al aprovechar los modelos de lenguaje de gran escala y evitar el cálculo de estructuras tridimensionales, el modelo ofrece un cribado rápido y eficiente de millones de compuestos en busca de posibles interacciones fármaco-proteína, acelerando el tiempo de trabajo y los costes asociados.