Estudio de Harvard publicado en Science: OpenAI o1 tasa de precisión en diagnósticos de emergencia del 67%, superando a dos médicos humanos

El equipo conjunto de la Facultad de Medicina de Harvard y el Centro Médico Beth Israel Deaconess publicó un estudio en la revista Science, en el que con una muestra de 76 pacientes de urgencias, evaluaron la capacidad de decisión diagnóstica del modelo OpenAI o1. Los resultados mostraron que o1 alcanzó una precisión del 67%, significativamente superior al 55% y 50% de dos médicos internistas principales. Sin embargo, los investigadores emitieron una advertencia importante: el grupo de control no eran especialistas en urgencias, y el estudio no afirma que la IA pueda tomar decisiones de vida o muerte en escenarios reales.
(Resumen previo: Estudio de la Universidad de California sobre el fenómeno de la “niebla de la IA”: el 14% de los empleados se vuelven locos por agentes y automatización, y el 40% considera renunciar)
(Información adicional: Autor de Sapiens: La IA se está convirtiendo en una amenaza, ha penetrado en los sistemas operativos de la civilización humana! Como armas nucleares)

Un artículo de la Facultad de Medicina de Harvard, discretamente publicado en la prestigiosa revista Science, ha llevado la discusión sobre IA médica desde una demostración en escenario de exhibición a una investigación clínica formal.

Este estudio, realizado en colaboración con Beth Israel Deaconess Medical Center, utilizó datos de 76 pacientes reales de urgencias como muestra de prueba, y comparó diagnósticos realizados por OpenAI o1, GPT-4o, y dos médicos internistas principales en cada caso. El criterio de evaluación fue: la proporción de respuestas “precisas o muy cercanas a la correcta”.

Los resultados finales llamaron la atención de muchos: o1 logró una precisión del 67%, mientras que los dos médicos humanos obtuvieron 55% y 50% respectivamente. GPT-4o también fue incluido como control, pero su rendimiento fue inferior a o1.

¿En qué aspecto destaca o1?

El equipo de investigación señaló especialmente que la diferencia más marcada entre o1 y los médicos humanos ocurrió en la etapa de “clasificación inicial (triage)”, es decir, en el momento en que el paciente ingresa a urgencias, con la menor cantidad de información y mayor incertidumbre.

En este escenario, o1 debe integrar en una dirección diagnóstica preliminar las quejas, síntomas y signos vitales descritos en texto. Esto coincide con las fortalezas de los grandes modelos de lenguaje: reconocimiento de patrones en texto estructurado, integración rápida de conocimientos multidisciplinarios, y la capacidad de ofrecer razonamientos coherentes incluso con información incompleta.

Aunque GPT-4o también participó en la prueba de control, bajo las mismas condiciones su rendimiento fue menos estable que o1, y la diferencia con los médicos fue menor. Los investigadores atribuyen esto a la arquitectura de razonamiento en cadena más potente de o1.

Desde la perspectiva del significado del estudio, esto ya no es solo una historia de “IA ganando en benchmarks”: los datos provienen de registros reales de atención en urgencias, no de preguntas diseñadas artificialmente, lo que otorga a estos resultados un valor de referencia clínica.

No te dejes llevar solo por los titulares: tres premisas que debes conocer antes

Antes de que este estudio genere un amplio debate, hay tres cosas que vale la pena confirmar con calma.

Primero, el grupo de control no son médicos de urgencias. Las dos personas que compararon en la prueba son “médicos internistas”, no médicos de emergencias con entrenamiento especializado en ER. La dificultad central del diagnóstico en urgencias radica en decisiones en un entorno de alta presión, multitarea y fragmentación de información; los internistas no son la referencia más fuerte en ese escenario — el marco comparativo del estudio en sí puede ser cuestionado.

Segundo, esto es “triage en texto”, no un escenario real multimodal de urgencias. El director del estudio aclaró: “esto solo es clasificación en texto, no equivale a un ER multimodal real.” La atención real en urgencias involucra interpretación de imágenes, observación física, comunicación en el lugar, procedimientos de emergencia — aspectos en los que la IA basada en modelos de lenguaje aún no puede intervenir.

Tercero, el equipo de investigación no afirma que la IA pueda tomar decisiones de vida o muerte. Al publicar los resultados, los investigadores enfatizaron las limitaciones del estudio y no sugirieron que la IA pueda aplicarse directamente en la práctica clínica.

Desde la perspectiva del avance, este estudio representa un hito técnico real: en la carrera de “diagnóstico en texto estructurado”, la IA ya puede superar a médicos humanos en ciertos escenarios. Pero entre la “precisión en laboratorio” y la “implementación en la atención médica”, aún hay obstáculos regulatorios, integración multimodal, conexión con sistemas hospitalarios, y — lo más difícil — quién asuma la responsabilidad en caso de errores. La barrera técnica puede estar superada, pero la verdadera implementación de la IA médica apenas comienza.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado