Los investigadores del Mass General Brigham de Estados Unidos han concluido un estudio que revela que el popular chatbot ChatGPT alcanza una precisión del 72% en la toma de decisiones clínicas generales. La investigación ha sido publicada en el ‘Journal of Medical Internet Research’, donde también se explica que esta herramienta basada en la inteligencia artificial ha obtenido buenos resultados tanto en atención primaria como en urgencias y en las diferentes especialidades.
Uno de los autores del proyecto de investigación es Marc Succi, director asociado de innovación y comercialización y líder de innovación estratégica en el Mass General Brigham y director ejecutivo de la Incubadora MESH, quien ha explicado que su estudio “evalúa de forma exhaustiva el apoyo a la toma de decisiones a través de ChatGPT desde el inicio del trabajo con un paciente y a lo largo de todo el escenario asistencial, desde el diagnóstico diferencial hasta las pruebas, el diagnóstico y el tratamiento".
ChatGPT es un sistema de chatbot que trabaja con la inteligencia artificial para dar respuesta a todo tipo de preguntas, utilizando un modelo de lenguaje amplio (LLM) que permite avisos y respuestas ascendentes que afectan a las respuestas posteriores. El modelo de lenguaje se entrena en una variedad de textos, incluidos sitios web, artículos y libros (hasta el año 2021), que generan respuestas prediciendo el ‘token’ con más probabilidades de suceder, basándose en patrones de datos de entrenamiento.
La precisión se midió mediante un sistema de puntuación a las respuestas correctas
El equipo de investigadores quiso probar la evidencia de esta tecnología y su desempeño en el entorno clínico, encontrando que ofrece una precisión del del 60,3% en la determinación de diagnósticos diferenciales basados únicamente en HPI (antecedentes de enfermedad actual), PE (examen físico) y ROS (revisión de sistemas) y por otro lado, una precisión del 76,9% en diagnósticos finales con el manejo de información adicional, como pueden ser las pruebas de diagnóstico relevantes. De media, ChatGPT ha logrado un rendimiento del 71,8% en todas las viñetas y tipos de preguntas, por lo que esta herramienta se posiciona como un potencial aliado de los profesionales sanitarios.
EL MÉTODO DEL ESTUDIO
El ámbito científico todavía no había evaluado la capacidad de los LLM para ayudar en el alcance del razonamiento clínico iterativo mediante indicaciones sucesivas, actuando como médicos artificiales. El objetivo era probar si ChatGPT sería capaz de trabajar a lo largo de todo un encuentro clínico con un paciente y recomendar una prueba diagnóstica, decidir el curso de tratamiento clínico y, en última instancia, realizar el diagnóstico final. Así que, bajo esta premisa, los investigadores del Mass General Brigham ingresaron 36 viñetas clínicas en ChatGPT. Primero se le pidió a la herramienta que ofreciera posibles diagnósticos, en función de la edad, el sexo y la agudeza del caso del paciente. Posteriormente se le facilitaba información adicional y se le pedía la toma de decisiones de pruebas de diagnóstico, tratamientos y un diagnóstico final.
La precisión se midió mediante un sistema de puntuación a las respuestas correctas ofrecidas a las preguntas planteadas dentro de las viñetas clínicas probadas, bajo la supervisión humana. La conclusión es que el popular chatbot “logra una precisión impresionante en la toma de decisiones clínicas, con una fuerza cada vez mayor a medida que obtiene más información clínica a su disposición”. Además, las respuestas de ChatGPT no mostraron sesgo de género y su rendimiento general era estable tanto en atención primaria como en urgencias.
“ChatGPT logra una precisión impresionante en la toma de decisiones clínicas, con una fuerza cada vez mayor a medida que obtiene más información clínica a su disposición”
En particular, ChatGPT demuestra la mayor precisión en las tareas de diagnóstico final, en comparación con el diagnóstico inicial. Entre las limitaciones que ha destacado el equipo de investigadores, están los problemas con el diagnóstico diferencial, ya que es el momento en el que un médico tiene que averiguar qué hacer. “Esto es importante porque nos dice dónde son realmente expertos los médicos y dónde aportan más valor: en las primeras fases de la atención al paciente, con poca información, cuando se necesita una lista de posibles diagnósticos".
Los investigadores han señalado que “no existen puntos de referencia reales, pero estimamos que el desempeño de ChatGPT está al nivel de alguien que acaba de graduarse en la facultad de Medicina, como un interno o un residente”. También añade que los sistemas basados en LLM se van a convertir en una “herramienta de aumento para la práctica de la medicina, apoyando la toma de decisiones clínicas con una precisión impresionante”.
De media, ChatGPT ha logrado un rendimiento del 71,8% en todas las viñetas y tipos de preguntas
Los cambios en la tecnología de inteligencia artificial se están produciendo a gran velocidad y están transformando muchas industrias, incluida la sanitaria, pero aún no se ha estudiado la capacidad de las LLM para ayudar en todo el ámbito de la atención clínica. Por ello, los autores apuntan a que todavía hace falta más investigación de referencia y orientación normativa antes de que sistemas como ChatGPT puedan integrarse en la atención médica. En esta línea, Succi y su equipo continúan investigando cómo las herramientas de inteligencia artificial pueden mejorar la atención al paciente y los resultados, que pueden ser de especial utilidad en áreas con recursos limitados.