Harvard estuda na Science: OpenAI o1 taxa de precisão no diagnóstico de emergência 67%, superando dois médicos humanos

Harvard Medical School e Beth Israel Deaconess Medical Center unem equipe conjunta publicou um estudo na revista Science, usando uma amostra de 76 pacientes de emergência para testar a capacidade de decisão diagnóstica do modelo OpenAI o1.
Os resultados mostraram que o o1 atingiu uma precisão de 67%, significativamente superior aos 55% e 50% de dois médicos internos de clínica geral. No entanto, os pesquisadores também emitiram um aviso importante: o grupo de controle não eram médicos de emergência especializados, e o estudo não afirma que a IA já possa tomar decisões de vida ou morte em situações reais.
(Preâmbulo: pesquisa da Universidade da Califórnia sobre o fenômeno da “névoa da IA”: 14% dos trabalhadores de escritório enlouquecem com agentes e automação, com 40% considerando sair do emprego)
(Informação adicional: autor de Sapiens: a IA está se tornando uma ameaça, invadindo os sistemas operacionais da civilização humana! Como armas nucleares)

Um artigo da Harvard Medical School, discretamente publicado na revista acadêmica de ponta Science, marca a entrada oficial da discussão sobre IA médica no círculo de pesquisa clínica, saindo do palco de demonstrações para o campo real.

Este estudo, conduzido em parceria entre Harvard Medical School e Beth Israel Deaconess Medical Center, utilizou registros de 76 pacientes reais de emergência como amostra de teste, permitindo que o OpenAI o1, GPT-4o, e dois médicos internos de clínica geral fizessem diagnósticos para cada caso. O critério de avaliação foi: a proporção de respostas consideradas “precisas ou muito próximas do correto”.

Os números finais chamaram atenção — o o1 atingiu uma precisão de 67%, enquanto os dois médicos humanos ficaram em 55% e 50% respectivamente. O GPT-4o também foi incluído como controle, mas apresentou desempenho inferior ao o1.

Onde o o1 se destaca?

A equipe de pesquisa destacou que a maior diferença entre o o1 e os médicos humanos ocorreu na fase de “triagem inicial” — ou seja, no momento em que o paciente entra na emergência, com informações mínimas e maior incerteza.

Nessa situação, o o1 precisa integrar a descrição do queixa principal, sintomas e sinais vitais para formar uma hipótese diagnóstica preliminar. Isso coincide com a força dos grandes modelos de linguagem: reconhecimento de padrões em textos estruturados, rápida integração de conhecimentos multidisciplinares, e a capacidade de fornecer raciocínios bem organizados mesmo com informações incompletas.

Embora o GPT-4o também tenha participado do teste de controle, seu desempenho sob as mesmas condições foi menos estável, e a diferença em relação ao o1 foi menor. Os pesquisadores acreditam que isso se deve à arquitetura de raciocínio mais robusta do o1.

Do ponto de vista do significado do estudo, não se trata mais apenas de “IA venceu em benchmarks” — os dados vêm de registros reais de atendimentos de emergência, não de questões artificialmente criadas, conferindo à métrica um valor clínico potencialmente relevante.

Não se deixe levar pelos títulos sensacionalistas: três premissas que você precisa entender

Antes que esse estudo gere debates amplos, há três pontos que vale a pena desacelerar e confirmar com clareza.

Primeiro, o grupo de controle não são médicos de emergência especializados. Os dois médicos utilizados na comparação são “médicos internos de clínica geral”, não médicos de emergência com treinamento específico em ER. O desafio central do diagnóstico de emergência está na alta pressão, multitarefa, fragmentação de informações — nesse cenário, médicos de clínica geral não são o padrão de referência mais forte, e a estrutura de comparação do estudo pode ser questionada.

Segundo, trata-se de uma “triagem textual”, não do ambiente multimodal real de uma emergência. O próprio líder do estudo afirmou claramente: “Isso é apenas triagem textual, não equivale a uma emergência multimodal real.” Na prática, a emergência real envolve leitura de imagens, observação de sinais físicos, comunicação no local, procedimentos de urgência — aspectos que os grandes modelos de linguagem ainda não conseguem integrar.

Terceiro, a equipe de pesquisa não afirma que a IA já possa tomar decisões de vida ou morte. Ao divulgar os resultados, os pesquisadores reforçaram as limitações do estudo e não sugeriram a aplicação direta do diagnóstico por IA na prática clínica.

Do ponto de vista prático, essa pesquisa representa um marco técnico real — na pista de “diagnóstico por texto estruturado”, a IA já consegue superar médicos humanos em certos contextos. Mas, do “nível de precisão de laboratório” ao “implantação na clínica”, ainda há obstáculos regulatórios, integração multimodal, conexão com sistemas hospitalares, e — o mais difícil — quem assume a responsabilidade quando há erro. A barreira técnica pode estar superada, mas os desafios para a implementação clínica da IA médica estão apenas começando.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar