Pesquisadores afirmam que as descobertas alarmantes do mito da Anthropic foram replicadas com IA de prateleira

Em resumo

  • Pesquisadores mostram que explorações ao estilo Anthropic podem ser reproduzidas com IA pública, afirmam relatórios.
  • Estudo sugere que a descoberta de vulnerabilidades já é barata e amplamente acessível.
  • Descobertas indicam que as capacidades cibernéticas de IA podem estar se espalhando mais rápido do que o esperado.

Quando a Anthropic revelou o Claude Mythos no início deste mês, ela bloqueou o modelo atrás de uma coalizão avaliada de gigantes da tecnologia e o apresentou como algo perigoso demais para o público. O Secretário do Tesouro Scott Bessent e o Presidente do Fed Jerome Powell convocaram uma reunião de emergência com CEOs de Wall Street. A palavra “vulnpocalipse” ressurgiu nos círculos de segurança. E agora uma equipe de pesquisadores complicou ainda mais essa narrativa. A Vidoc Security pegou exemplos públicos corrigidos pela própria Anthropic e tentou reproduzi-los usando GPT-5.4 e Claude Opus 4.6 dentro de um agente de codificação de código aberto chamado opencode. Sem convite Glasswing. Sem acesso à API privada. Sem stack interno da Anthropic. “Reproduzimos as descobertas do Mythos no opencode usando modelos públicos, não a stack privada da Anthropic,” escreveu Dawid Moczadło, um dos pesquisadores envolvidos no experimento, no X após publicar os resultados. “Uma maneira melhor de interpretar o lançamento do Mythos da Anthropic não é ‘um laboratório tem um modelo mágico’. É: a economia da descoberta de vulnerabilidades está mudando.”

Reproduzimos as descobertas do Mythos no opencode usando modelos públicos, não a stack privada da Anthropic.

A barreira está mudando de acesso ao modelo para validação: encontrar sinais de vulnerabilidade está ficando mais barato; transformá-los em segurança confiável

Uma maneira melhor de interpretar o lançamento do Mythos da Anthropic é… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 de abril de 2026

Os casos que eles focaram foram os mesmos destacados pela própria Anthropic em seus materiais públicos: um protocolo de compartilhamento de arquivos em servidor, a pilha de rede de um sistema operacional focado em segurança, o software de processamento de vídeo embutido em quase todas as plataformas de mídia, e duas bibliotecas criptográficas usadas para verificar identidades digitais na web. Tanto o GPT-5.4 quanto o Claude Opus 4.6 reproduziram dois casos de bugs em todas as três execuções cada. O Claude Opus 4.6 também redescobriu independentemente um bug no OpenBSD três vezes seguidas, enquanto o GPT-5.4 obteve zero nesse caso. Alguns bugs (, um envolvendo a biblioteca FFmpeg para rodar vídeos e outro envolvendo o processamento de assinaturas digitais com wolfSSL), retornaram parcialmente—ou seja, os modelos encontraram a superfície do código correta, mas não identificaram a causa raiz exata.

Imagem: Vidoc Security

Cada varredura ficou abaixo de $30 por arquivo, o que significa que os pesquisadores conseguiram encontrar as mesmas vulnerabilidades que a Anthropic, gastando menos de $30 para isso.

“Modelos de IA já são bons o suficiente para reduzir o espaço de busca, identificar pistas reais e, às vezes, recuperar toda a causa raiz em códigos testados em batalha,” disse Moczadło no X. O fluxo de trabalho que usaram não foi uma solicitação única. Ele espelhou o que a própria Anthropic descreveu publicamente: fornecer ao modelo uma base de código, deixá-lo explorar, paralelizar tentativas, filtrar por sinais. A equipe da Vidoc construiu a mesma arquitetura com ferramentas abertas. Um agente de planejamento dividia cada arquivo em pedaços. Um agente de detecção separado rodava em cada pedaço, depois inspecionava outros arquivos do repositório para confirmar ou descartar descobertas. Os intervalos de linhas dentro de cada prompt de detecção—por exemplo, “focar nas linhas 1158-1215”—não foram escolhidos manualmente pelos pesquisadores. Foram saídas da etapa de planejamento anterior. O post do blog explica isso explicitamente: “Queremos ser explícitos quanto a isso porque a estratégia de divisão de pedaços molda o que cada agente de detecção vê, e não queremos apresentar o fluxo de trabalho como mais curado manualmente do que realmente foi.” O estudo não afirma que modelos públicos correspondam ao Mythos em tudo. O modelo da Anthropic foi além de apenas detectar o bug do FreeBSD—ele construiu um plano de ataque funcional, descobrindo como um atacante poderia encadear fragmentos de código através de múltiplos pacotes de rede para assumir controle total da máquina remotamente. Os modelos da Vidoc encontraram a falha. Eles não construíram a arma. É aí que reside a verdadeira lacuna: não em encontrar a vulnerabilidade, mas em saber exatamente como explorá-la. Mas o argumento de Moczadło não é realmente que modelos públicos sejam igualmente poderosos. É que a parte cara do fluxo de trabalho agora está disponível para qualquer um com uma chave de API: “A barreira está mudando de acesso ao modelo para validação: encontrar sinais de vulnerabilidade está ficando mais barato; transformá-los em trabalho de segurança confiável ainda é difícil.” O próprio relatório de segurança da Anthropic reconheceu que o Cybench, o benchmark usado para medir se um modelo representa um risco cibernético sério, “não é mais suficientemente informativo das capacidades atuais de modelos de fronteira” porque o Mythos o superou completamente. O laboratório estimou que capacidades semelhantes se espalhariam de outros laboratórios de IA dentro de seis a 18 meses. O estudo da Vidoc sugere que o lado da descoberta dessa equação já está disponível fora de qualquer programa restrito. Seus trechos completos de prompts, saídas de modelos e apêndice metodológico estão publicados no site oficial do laboratório.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar