La Universidad de Harvard y un equipo conjunto del Beth Israel Deaconess Medical Center publicaron un estudio en la revista Science, en el que, con una muestra de 76 pacientes de urgencias, evaluaron la capacidad de decisión diagnóstica del modelo OpenAI o1. Los resultados mostraron que la precisión de o1 alcanzó el 67%, significativamente superior al 55% y 50% de dos médicos internistas principales. Sin embargo, los investigadores emitieron una advertencia importante al mismo tiempo: el grupo de control no eran médicos especializados en urgencias, y el estudio no afirmaba que la IA pudiera tomar decisiones de vida o muerte en situaciones reales. (Resumen previo: investigación de la Universidad de California sobre el fenómeno de la "niebla mental" de la IA: el 14% de los empleados de oficina están enloqueciendo por agentes y automatización, con un 40% considerando renunciar) (Información adicional: autor de "Sapiens": la IA está convirtiéndose en una amenaza, ha penetrado en los sistemas operativos de la civilización humana! Como las armas nucleares)

動區BlockTempo

2026-05-04 06:31:11

El equipo conjunto de la Facultad de Medicina de Harvard y el Centro Médico Beth Israel Deaconess publicó un estudio en la revista Science, en el que con una muestra de 76 pacientes de urgencias, evaluaron la capacidad de decisión diagnóstica del modelo OpenAI o1. Los resultados mostraron que o1 alcanzó una precisión del 67%, significativamente superior al 55% y 50% de dos médicos internistas principales. Sin embargo, los investigadores emitieron una advertencia importante: el grupo de control no eran especialistas en urgencias, y el estudio no afirma que la IA pueda tomar decisiones de vida o muerte en escenarios reales.
(Resumen previo: Estudio de la Universidad de California sobre el fenómeno de la “niebla de la IA”: el 14% de los empleados se vuelven locos por agentes y automatización, y el 40% considera renunciar)
(Información adicional: Autor de Sapiens: La IA se está convirtiendo en una amenaza, ha penetrado en los sistemas operativos de la civilización humana! Como armas nucleares)

Un artículo de la Facultad de Medicina de Harvard, discretamente publicado en la prestigiosa revista Science, ha llevado la discusión sobre IA médica desde una demostración en escenario de exhibición a una investigación clínica formal.

Este estudio, realizado en colaboración con Beth Israel Deaconess Medical Center, utilizó datos de 76 pacientes reales de urgencias como muestra de prueba, y comparó diagnósticos realizados por OpenAI o1, GPT-4o, y dos médicos internistas principales en cada caso. El criterio de evaluación fue: la proporción de respuestas “precisas o muy cercanas a la correcta”.

Los resultados finales llamaron la atención de muchos: o1 logró una precisión del 67%, mientras que los dos médicos humanos obtuvieron 55% y 50% respectivamente. GPT-4o también fue incluido como control, pero su rendimiento fue inferior a o1.

¿En qué aspecto destaca o1?

El equipo de investigación señaló especialmente que la diferencia más marcada entre o1 y los médicos humanos ocurrió en la etapa de “clasificación inicial (triage)”, es decir, en el momento en que el paciente ingresa a urgencias, con la menor cantidad de información y mayor incertidumbre.

En este escenario, o1 debe integrar en una dirección diagnóstica preliminar las quejas, síntomas y signos vitales descritos en texto. Esto coincide con las fortalezas de los grandes modelos de lenguaje: reconocimiento de patrones en texto estructurado, integración rápida de conocimientos multidisciplinarios, y la capacidad de ofrecer razonamientos coherentes incluso con información incompleta.

Aunque GPT-4o también participó en la prueba de control, bajo las mismas condiciones su rendimiento fue menos estable que o1, y la diferencia con los médicos fue menor. Los investigadores atribuyen esto a la arquitectura de razonamiento en cadena más potente de o1.

Desde la perspectiva del significado del estudio, esto ya no es solo una historia de “IA ganando en benchmarks”: los datos provienen de registros reales de atención en urgencias, no de preguntas diseñadas artificialmente, lo que otorga a estos resultados un valor de referencia clínica.

No te dejes llevar solo por los titulares: tres premisas que debes conocer antes

Antes de que este estudio genere un amplio debate, hay tres cosas que vale la pena confirmar con calma.

Primero, el grupo de control no son médicos de urgencias. Las dos personas que compararon en la prueba son “médicos internistas”, no médicos de emergencias con entrenamiento especializado en ER. La dificultad central del diagnóstico en urgencias radica en decisiones en un entorno de alta presión, multitarea y fragmentación de información; los internistas no son la referencia más fuerte en ese escenario — el marco comparativo del estudio en sí puede ser cuestionado.

Segundo, esto es “triage en texto”, no un escenario real multimodal de urgencias. El director del estudio aclaró: “esto solo es clasificación en texto, no equivale a un ER multimodal real.” La atención real en urgencias involucra interpretación de imágenes, observación física, comunicación en el lugar, procedimientos de emergencia — aspectos en los que la IA basada en modelos de lenguaje aún no puede intervenir.

Tercero, el equipo de investigación no afirma que la IA pueda tomar decisiones de vida o muerte. Al publicar los resultados, los investigadores enfatizaron las limitaciones del estudio y no sugirieron que la IA pueda aplicarse directamente en la práctica clínica.

Desde la perspectiva del avance, este estudio representa un hito técnico real: en la carrera de “diagnóstico en texto estructurado”, la IA ya puede superar a médicos humanos en ciertos escenarios. Pero entre la “precisión en laboratorio” y la “implementación en la atención médica”, aún hay obstáculos regulatorios, integración multimodal, conexión con sistemas hospitalarios, y — lo más difícil — quién asuma la responsabilidad en caso de errores. La barrera técnica puede estar superada, pero la verdadera implementación de la IA médica apenas comienza.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
600.17K Popularidad
#
USSeeksStrategicBitcoinReserve
58.8M Popularidad
#
IsraelStrikesIranBTCPlunges
42.32K Popularidad
#
BitcoinETFOptionLimitQuadruples
1.05M Popularidad
#
#FedHoldsRateButDividesDeepen
47.51K Popularidad

Anclado

Estudio de Harvard publicado en Science: OpenAI o1 tasa de precisión en diagnósticos de emergencia del 67%, superando a dos médicos humanos

¿En qué aspecto destaca o1?

No te dejes llevar solo por los titulares: tres premisas que debes conocer antes

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado