La investigación, publicada en la revista JAMA Network Open, evaluó 21 modelos de lenguaje de última generación, incluyendo versiones recientes de Claude, DeepSeek, Gemini, GPT y Grok, utilizando 29 viñetas clínicas estandarizadas y una nueva herramienta llamada PrIME-LLM.
Los investigadores simularon el proceso clínico real, entregando la información de forma gradual (datos básicos, exploración física y luego resultados de laboratorio). Los resultados mostraron que los modelos tienen un rendimiento deficiente en las etapas iniciales del razonamiento clínico, especialmente al generar un diagnóstico diferencial —el listado de posibles enfermedades que explica los síntomas—, considerado el “arte de la medicina”.
“A pesar de las mejoras continuas, los grandes modelos de lenguaje de uso general no están listos para un uso clínico sin supervisión y con garantías de seguridad”, afirmó Marc Succi, coautor del estudio y director ejecutivo del MESH Incubator de Mass General Brigham.
Aunque los LLM alcanzaron una alta precisión en el diagnóstico final (entre 60% y más del 90%, según el modelo) cuando se les proporcionaba toda la información completa, fallaron sistemáticamente en el comienzo del caso, cuando la información es limitada. Mejoraron notablemente al incorporar resultados de laboratorio e imágenes.
Los modelos con mejores puntajes generales en la herramienta PrIME-LLM incluyeron Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash y Gemini 3.0 Pro.
Arya Rao, primera autora del estudio, explicó que “estos modelos son muy buenos identificando un diagnóstico final cuando ya se dispone de todos los datos, pero les cuesta el comienzo de un caso abierto”.
Los autores enfatizaron que la IA todavía necesita “un humano en el circuito” y una supervisión estrecha. Expertos independientes coinciden en que el juicio clínico humano sigue siendo indispensable y recomiendan a la población utilizar estas herramientas con extrema cautela y siempre consultar a un profesional sanitario ante cualquier duda de salud.
El estudio refuerza que, si bien la inteligencia artificial promete ser una herramienta valiosa para apoyar a los médicos, aún no puede reemplazar el razonamiento clínico avanzado en entornos reales.

Deja una respuesta