Un grupo de investigadores de la Universidad de Cambridge ha descubierto que la tecnología de aprendizaje automático podría emplearse para descifrar el “lenguaje biológico” del cáncer, el alzhéimer y otras enfermedades neurodegenerativas. Su estudio ha sido publicado en la revista científica PNAS y podría utilizarse en el futuro para “corregir los errores gramaticales que se producen dentro de las células que causan enfermedades”, declaran.
“Llevar la tecnología de aprendizaje automático a la investigación de las enfermedades neurodegenerativas y el cáncer es un cambio de juego absoluto. En última instancia, el objetivo será utilizar la inteligencia artificial para desarrollar medicamentos dirigidos a aliviar drásticamente los síntomas o para prevenir la demencia”, afirma el profesor Tomas Knowles, autor principal del artículo.
Cada vez que Netflix nos recomienda una película o Facebook hace lo propio con sus sugerencias de amistad, estas plataformas emplean potentes algoritmos de aprendizaje automático que hacen conjeturas bien fundamentadas sobre el comportamiento que tendrán las personas. Los asistentes de voz como Alexa o Siri pueden incluso reconocer a las personas de forma individual y ofrecer respuestas a sus dudas y peticiones de forma instantánea.
Partiendo de esta base la doctora Kadi Liis Saar, primera autora del artículo, utilizó una tecnología similar de aprendizaje automático para entrenar un modelo de lenguaje a gran escala para observar qué sucede cuando algo sale mal con las proteínas dentro de nuestro cuerpo y se inicia una enfermedad. “El cuerpo humano alberga miles y miles de proteínas y los científicos aún no conocen la función de muchas de ellas. Le pedimos a un modelo de lenguaje basado en una red neuronal aprender el lenguaje de las proteínas”, declara.
“Pedimos específicamente al programarlo que aprendiera el lenguaje de los condensados biomoleculares que cambian de forma y que los científicos realmente necesitan comprender para descifrar el lenguaje de la función biológica y el mal funcionamiento que causan cáncer y enfermedades neurodegenerativas”, explica. “Se trata de que aprenda sin que se diga explícitamente lo que los científicos ya han descubierto sobre el lenguaje de las proteínas tras décadas de investigación”, añade.
“Pedimos específicamente al programarlo que aprendiera el lenguaje de los condensados biomoleculares que cambian de forma y que los científicos realmente necesitan comprender para descifrar el lenguaje de la función biológica y el mal funcionamiento que causan cáncer y enfermedades neurodegenerativas”
Las proteínas son moléculas grandes y complejas que desempeñan muchas funciones críticas en el cuerpo. Realizan la mayor parte del trabajo en las células y son necesarias para la estructura, función y regulación de los tejidos y órganos. Los anticuerpos, por ejemplo, son una proteína que funciona para proteger el cuerpo. Las enfermedades como el alzhéimer, el párkinson y la enfermedad de Huntington son tres enfermedades neurodegenerativas muy comunes pero los científicos creen que hay varios cientos más.
En el caso del alzhéimer, enfermedad que afecta a más de 50 millones de personas en todo el mundo, las proteínas se vuelven “rebeldes”, forman grupos y destruyen las células nerviosas sanas. Un cerebro sano cuenta con un sistema de control de calidad que elimina eficazmente estos grupos de proteínas sustancialmente peligrosas. Se les denomina “agregados”.
Los científicos ahora piensan que algunas proteínas desordenadas también forman pequeñas “gotitas” líquidas de proteínas llamadas condensados que no tienen membrana y se fusionan libremente entre sí. A diferencia de los agregados de proteínas que son irreversibles, los condensados de proteínas pueden formarse y reformarse y, a menudo, se comparan con gotas de cera que varían su forma en función del calor aplicado.
“Los condensados de proteínas han despertado recientemente mucha atención en el mundo científico porque controlan eventos clave en la célula como la expresión génica, cómo nuestro ADN se convierte en proteínas, y la síntesis de proteínas, cómo las células producen proteínas”, señala Knowles. “Cualquier defecto relacionado con esas gotitas de proteínas puede conducir a enfermedades como el cáncer. Motivo por el que incorporar la tecnología de procesamiento del lenguaje natural a la investigación sobre los orígenes moleculares del mal funcionamiento de las proteínas es vital si queremos poder corregir los errores gramaticales dentro de las células que causan la enfermedad”.
“Alimentamos el algoritmo con todos los datos almacenados en las proteínas conocidas para que pudiera aprender y predecir el lenguaje de las proteínas de la misma forma que estos modelos aprenden, por ejemplo, el lenguaje humano”, explica la doctora Saar. “De esta forma podemos preguntarle sobre la gramática específica que hace que solo algunas proteínas formen condensados dentro de las células. Es un trabajo desafiante y desbloquearlos nos ayudará a comprender las reglas del lenguaje de la enfermedad”, concluye.