ChatGPT-4 Vision: así es la prometedora precisión de este nuevo modelo en los exámenes radiológicos

La Sociedad Radiológica de Norteamérica ha evaluado el rendimiento de este modelo de ChatGPT en su uso en la radiología

ChatGPT-4 Vision y la radiología (Foto: Montaje)

3 septiembre 2024 | 17:45 h

Archivado en:

Un grupo de investigadores de la Sociedad Radiológica de Norteamérica han evaluado el rendimiento de ChatGPT-4 Vision y han descubierto que el modelo tiene un buen desempeño en las preguntas de exámenes de radiología basadas en texto, pero tiene dificultades para responder con precisión las preguntas relacionadas con imágenes. Los resultados del estudio se publican en 'Radiology', una revista de la Sociedad Radiológica de Norteamérica (RSNA).

Chat GPT-4 Vision es la primera versión del gran modelo de lenguaje que puede interpretar tanto texto como imágenes. Para el estudio, el equipo de investigación del doctor Klochko utilizó preguntas retiradas de los exámenes de formación en radiología diagnóstica del Colegio Americano de Radiología, una serie de pruebas que se utilizan para evaluar el progreso de los residentes de Radiología. Después de excluir las preguntas duplicadas, los investigadores utilizaron 377 preguntas en 13 dominios, incluidas 195 preguntas que solo contenían texto y 182 que contenían una imagen.

"ChatGPT-4 ha demostrado ser prometedor para ayudar a los radiólogos en tareas como simplificar los informes de radiología de cara al paciente e identificar el protocolo adecuado para los exámenes de diagnóstico por imágenes", afirma el doctor Chad Klochko, radiólogo musculoesquelético e investigador de inteligencia artificial (IA) en Henry Ford Health en Detroit, Michigan. "Con capacidades de procesamiento de imágenes, GPT-4 Vision permite nuevas aplicaciones potenciales en radiología".

"Esta consistencia en las preguntas basadas en texto puede sugerir que el modelo tiene un grado de comprensión textual en Radiología"

De esta forma, GPT-4 Vision respondió correctamente 246 de las 377 preguntas, logrando una puntuación general del 65,3 %. El modelo respondió correctamente el 81,5 % (159) de las 195 consultas de solo texto y el 47,8 % (87) de las 182 preguntas con imágenes. "La precisión del 81,5 % en las preguntas basadas únicamente en texto refleja el rendimiento del modelo anterior", apunta el experto. "Esta consistencia en las preguntas basadas en texto puede sugerir que el modelo tiene un grado de comprensión textual en radiología", señala.

La Radiología genitourinaria fue la única subespecialidad en la que GPT-4 Vision tuvo un mejor desempeño en las preguntas con imágenes (67%, o 10 de 15) que en las preguntas con solo texto (57%, o 4 de 7). El modelo tuvo un mejor desempeño en las preguntas con solo texto en todas las demás subespecialidades. Por otra parte, el programa demostró un mejor desempeño en las preguntas basadas en imágenes en las subespecialidades de tórax y genitourinarias, respondiendo correctamente el 69% y el 67% de las preguntas que contenían imágenes, respectivamente. En contrapartida, el modelo tuvo el peor desempeño en las preguntas que contenían imágenes en el dominio de la medicina nuclear, respondiendo correctamente solo 2 de 10 preguntas.

El estudio también evaluó el impacto de varias indicaciones en el desempeño de GPT-4 Vision. En las preguntas basadas en texto, la instrucción basada en cadenas de pensamiento tuvo un mejor desempeño que la instrucción larga en un 6,1 %, la instrucción básica en un 6,8 % y el estilo de instrucción original en un 8,9 %. No hubo evidencia que sugiriera diferencias de desempeño entre dos indicaciones en las preguntas basadas en imágenes.

"Notamos una tendencia alarmante en el modelo a proporcionar diagnósticos correctos basados en interpretaciones incorrectas de las imágenes"

"Nuestro estudio mostró evidencia de respuestas alucinatorias al interpretar los hallazgos de las imágenes", agrega Klochko. "Notamos una tendencia alarmante en el modelo a proporcionar diagnósticos correctos basados en interpretaciones incorrectas de las imágenes, lo que podría tener implicaciones clínicas importantes".

Los hallazgos de su estudio subrayan la necesidad de métodos de evaluación más especializados y rigurosos para evaluar el desempeño de modelos de lenguaje grandes en tareas de radiología. "Dados los desafíos actuales para interpretar con precisión las imágenes radiológicas clave y la tendencia a las respuestas alucinatorias, la aplicabilidad de GPT-4 Vision en campos de información crítica como la radiología es limitada en su estado actual", finaliza

Los contenidos de ConSalud están elaborados por periodistas especializados en salud y avalados por un comité de expertos de primer nivel. No obstante, recomendamos al lector que cualquier duda relacionada con la salud sea consultada con un profesional del ámbito sanitario.