O modelo de nível mítico da Anthropic, Claude Mythos, não está disponível ao público

A Anthropic anunciou hoje um plano: Project Glasswing (plano de Glasswing). O motivo pelo qual este plano foi lançado é que a Anthropic treinou um modelo totalmente novo e extremamente potente, o Claude Mythos Preview. Na prática, trata-se do mesmo modelo mencionado nos recentes vazamentos do código-fonte de há dois dias.

Os intervenientes no projecto incluem a Amazon AWS, a Apple, a Broadcom, a Cisco, a CrowdStrike, a Google, o JPMorgan Chase, a Linux Foundation, a Microsoft, a Nvidia, a Palo Alto Networks e a própria Anthropic — num total de 12 instituições que iniciaram a iniciativa em conjunto.

Em termos simples, como é que isto se entende: por ser um modelo demasiado forte, vão adoptar um modo de testes de segurança, disponibilizando-o apenas para utilização interna das instituições reconhecidas, sem o abrir ao público. Quão forte é? Vejam directamente os dados: o desempenho em código e a capacidade de inferência superam de forma clara o opus 4.6:

Código:

Inferência:

Pesquisa e utilização de computadores

“Opus” significa literalmente obra-prima; “Mythos” significa literalmente mito. O CEO da Anthropic, bem como uma série de grandes figuras da parceria, apareceram para dar apoio a este plano.

A Anthropic afirmou de forma clara que não tenciona disponibilizar o Claude Mythos Preview ao público. No entanto, o objectivo a longo prazo é permitir que os utilizadores consigam utilizar de forma segura modelos com um nível de capacidades equivalente. Para isso, planeiam primeiro desenvolver e validar os mecanismos de protecção de segurança relevantes no próximo modelo Claude Opus; concluir as iterações sob condições em que o risco seja controlável; e depois avançar gradualmente, o que poderá levar a que em breve seja lançada uma nova versão do opus para fornecer capacidades correspondentes.

Vamos ver em detalhe o que é o Project Glasswing.


O que é que este modelo descobriu?

Nas últimas semanas, a Anthropic utilizou o Claude Mythos Preview para analisar os sistemas operativos mais comuns do mundo, os browsers e outros softwares importantes.

Resultado: foram descobertas milhares de vulnerabilidades zero-day que nunca tinham sido detectadas antes, e uma grande parte foi classificada como de nível elevado (alto risco).

Alguns casos concretos:

Uma vulnerabilidade no OpenBSD que existe há 27 anos. O OpenBSD é conhecido pela segurança e é utilizado para executar infra-estruturas críticas como firewalls. Esta vulnerabilidade permite que um atacante, apenas ao ligar-se à máquina-alvo, consiga causar uma falha remota.

Uma vulnerabilidade no FFmpeg que existe há 16 anos. O FFmpeg é utilizado por inúmeros softwares para codificação e descodificação de vídeo. A linha de código em que a falha foi encontrada, que antes tinha sido verificada 5 milhões de vezes por ferramentas de testes automatizados, nunca tinha sido detectada.

No kernel Linux, o modelo descobriu e encadeou de forma autónoma múltiplas vulnerabilidades, permitindo que um atacante passasse de permissões de utilizador comum para o controlo total de toda a máquina.

Todas as vulnerabilidades acima foram reportadas aos responsáveis de manutenção dos respectivos softwares e já se encontram totalmente corrigidas. Quanto às restantes vulnerabilidades, a Anthropic já publicou antecipadamente os respectivos valores de hash criptográficos; depois de concluída a correcção, serão divulgados publicamente os detalhes específicos.


Porque é que é preciso fazer isto?

A conclusão apresentada pela Anthropic é a seguinte: as capacidades dos modelos de IA para descobrir e explorar vulnerabilidades de software já ultrapassaram todas as pessoas, excepto um pequeno número de especialistas humanos de topo.

A difusão desta capacidade é uma questão de tempo — não uma questão de se vai acontecer ou não.

As perdas económicas causadas pelo crime cibernético a nível global são estimadas em cerca de 500 mil milhões de dólares por ano. Os ataques a sistemas de saúde, infra-estruturas energéticas e instituições governamentais já causaram danos reais e também constituem uma ameaça contínua para infra-estruturas civis e militares.

A IA reduz significativamente os custos, os limiares e o nível de profissionalismo necessários para levar a cabo este tipo de ataques.

A lógica da Anthropic é: em vez de esperar que outras pessoas usem primeiro esta capacidade para atacar, é melhor utilizá-la proactivamente para defender.


Como é que o plano será concretamente feito?

O Project Glasswing actualmente inclui dois níveis.

O primeiro nível são 12 parceiros fundadores. Eles vão obter acesso ao Claude Mythos Preview para escanear e corrigir as vulnerabilidades nos seus próprios sistemas centrais, com focos como detecção de vulnerabilidades locais, testes de caixa negra em binários, segurança de endpoints, testes de penetração, etc.

O segundo nível são mais de 40 organizações que constroem ou mantêm infra-estruturas de software críticas. Elas também vão obter acesso ao modelo para escanear sistemas próprios e de código aberto.

Para este fim, a Anthropic compromete-se a fornecer um limite máximo de 100 milhões de dólares de utilização do modelo. Após o fim do período de pré-visualização de investigação, o Claude Mythos Preview será disponibilizado aos participantes para acesso comercial, com preços de 25/125 dólares por cada milhão de tokens de entrada/saída, com suporte para integração via Claude API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry.

Além disso, a Anthropic vai doar 2,5 milhões de dólares, por via da Linux Foundation, à Alpha-Omega e 1,5 milhões de dólares à OpenSSF, num total de 4 milhões de dólares, para apoiar os mantenedores de software de código aberto no enfrentamento desta nova situação. Os mantenedores de software de código aberto podem solicitar acesso através do projecto Claude for Open Source.

Próximo plano

No que diz respeito à partilha de informação, os parceiros irão, tanto quanto possível, partilhar entre si a informação e as melhores práticas. A Anthropic compromete-se a publicar, no prazo de 90 dias, relatórios de progresso da investigação, incluindo o número de vulnerabilidades descobertas, os problemas já corrigidos e os resultados de melhorias que possam ser divulgados.

No que diz respeito a recomendações de políticas, a Anthropic irá colaborar com as principais entidades de segurança para formar recomendações práticas relativamente às seguintes áreas: processos de divulgação de vulnerabilidades, processos de actualização de software, segurança em código aberto e em cadeia de abastecimento, ciclo de vida do desenvolvimento de software seguro, normas da indústria aplicáveis a sectores regulamentados, escalabilidade e automatização da classificação de vulnerabilidades, e automatização de patches.

Informação completa na fonte original oficial: https://www.anthropic.com/glasswing

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar