Cada año, millones de niños nacen, en todo el mundo, con trastornos genéticos graves. Entre ellas, predominan las enfermedades mendelianas causadas por una o algunas variantes genéticas en un solo gen. Sin embargo, identificar la variante causante, denominada variante diagnóstica, lleva mucho tiempo y requiere un amplio conocimiento y recursos, por lo que es necesario que se lleven a cabo enfoques eficientes, sistemáticos e integrales para mejorar la precisión y la velocidad del diagnóstico.
De forma paralela a esto, cada año se informa de cientos de nuevos genes relacionados con enfermedades, lo que beneficia al diagnóstico de casos que aún no han sido resueltos. Por ello, el ‘reanálisis’ periódico de los casos restantes no diagnosticados puede dar como resultado nuevos diagnósticos moleculares con el tiempo. En estos casos vuelve a aparecer la misma problemática: los altos costes plantean importantes barreras para la mayoría de laboratorios clínicos.
Para resolver estas cuestiones, el reanálisis basado en bioinformática presenta un enfoque rentable. Por ello, se han desarrollado varias herramientas bioinformáticas para priorizar genes y variantes, pero estas herramientas suelen tener una precisión limitada, dificultades para priorizar variantes sin codificación y emplean datos simulados.
La nueva herramienta se basa en el conocimiento para priorizar genes y variantes causantes de los trastornos mendelianos en función de características clínicas de los pacientes y perfiles de secuenciación
En este contexto, ahora un grupo de investigadores ha desarrollado un nuevo sistema de Inteligencia Artificial (IA) llamado AI-MARRVEL (AIM, MARRVEL). La nueva herramienta se basa en el conocimiento para priorizar genes y variantes causantes de los trastornos mendelianos en función de características clínicas de los pacientes y perfiles de secuenciación.
Así, el sistema emplea un clasificador de aprendizaje automático de bosque aleatorio entrenado en más de 3,5 millones de variantes de miles de casos diagnosticados. Además, AIM incorpora funciones diseñadas por expertos en la capacitación para recapitular los procesos de toma de decisiones en el diagnóstico molecular.
AIM se desarrolló empleando muestras de alta calidad que fueron diagnosticadas clínicamente y seleccionadas por expertos certificados por la Junta Estadounidense de Genética y Genómica Médica. Además, se añadieron características adicionales diseñadas por expertos que codifican conocimientos previos, como principios genéticos.
Así, evaluaron AIM en tres conjuntos de datos de pacientes independientes en varios escenarios de aplicación, incluido el diagnóstico en trío dominante, recesivo, el reanálisis a gran escala y el descubrimiento de genes de enfermedades novedosas.
Para ello, recopilaron datos de secuenciación del exoma y términos de odontología del fenotipo humano (HPO) de tres grupos distintos de pacientes: 1102 pacientes del Laboratorio de Diagnóstico Clínico (DiagLab), 75 de la Red de Enfermedades No Diagnostadas (UDN), y 200 del proyecto Descifrando Trastornos del Desarrollo ( DDD).
El grupo DiagLab se dividió en un conjunto de entrenamiento de 1044 pacientes y un conjunto de pruebas de 58. Además, los grupos UDN y DDD se utilizaron como conjuntos de pruebas separados. Cada conjunto de datos incluye archivos de formato de llamada variante y fenotipos anotados con términos HPO y una variante de diagnóstico seleccionada por expertos clínicos.
El algoritmo de bosque aleatorio se empleó como algoritmo principal de aprendizaje automático. Para determinar los parámetros óptimos, se seleccionó de forma aleatoria el 20% de los casos como conjunto de validación. Dichas muestras de validación se emplearon para ajustar parámetros. El 80% restante de los casos se emplearon para entrenar múltiples modelos de bosque aleatorio, cada uno con diferentes combinaciones de parámetros.
Los resultados del trabajo mostraron que AIM mejoró la tasa de diagnóstico genético preciso, duplicando el número de casos resueltos en comparación con los métodos de referencia
Finalmente, los resultados del trabajo mostraron que AIM mejoró la tasa de diagnóstico genético preciso, duplicando el número de casos resueltos en comparación con los métodos de referencia, en tres cohortes distintas del mundo real. Con el objetivo de identificar mejor los casos diagnosticables de los grupos no resueltos acumulados a lo largo del tiempo, se diseñó una métrica de confianza en la que AIM logró una tasa de precisión del 98% e identificó el 57% de los casos diagnosticables de una colección de 871 casos.
Además, el rendimiento de AIM mejoró después de ser ajustado para entornos específicos, incluidos los trastornos recesivos y el análisis de tríos. Por último, AIM demostró potencial para el descubrimiento de genes de enfermedades novedosas al predecir correctamente dos genes de enfermedades recientemente reportados por la Red de Enfermedades No Diagnósticas.
En conclusión, AIM logró mayor precisión en comparación con los métodos existentes para el diagnóstico genético. Con todo, los investigadores anticipan que esta herramienta puede ayudar en el diagnóstico primario, el reanálisis de casos no resueltos y el descubrimiento de nuevos genes de enfermedades.