Vista previa de Claude Mythos: la IA no publicada de Anthropic corrigió fallos de Linux y OpenBSD que los humanos pasaron por alto durante décadas

Coinpedia

La vista previa no publicada de Claude Mythos de Anthropic ha identificado de forma autónoma miles de vulnerabilidades de día cero de alta severidad en todos los principales sistemas operativos y navegadores web, lo que llevó a la empresa a lanzar Project Glasswing, una coalición defensiva de ciberseguridad respaldada por hasta $100 millones en créditos de uso de IA.

Conclusiones clave:

  • La vista previa Claude Mythos de Anthropic obtuvo 83.1% en Cybergym, encontrando miles de vulnerabilidades de día cero en cada sistema operativo y navegador principales.
  • Project Glasswing se lanzó el 7 de abril de 2026, con 11 socios fundadores y hasta $100 millones en créditos de uso de Mythos para defensores.
  • Una falla de OpenBSD de 27 años y un bug de FFmpeg de 16 años sobrevivieron a millones de pruebas automatizadas hasta que Mythos los encontró en cuestión de horas.

Claude Mythos AI Scored 83% on Cybergym and Found Critical Flaws Across Every Major Browser and OS

El modelo, que Anthropic describe como la mayor ganancia de capacidad de un solo modelo en la historia de la IA de frontera, completó el entrenamiento y se anunció públicamente el 7 de abril de 2026, después de que detalles internos salieran a la luz a finales de marzo mediante un sistema de gestión de contenidos mal configurado que expuso aproximadamente 3,000 archivos internos.

Anthropic no está lanzando Claude Mythos Preview al público ni a través de su API general. La empresa restringió el acceso a un grupo evaluado de socios después de que el modelo demostró que podía descubrir y explotar fallas desconocidas de software previamente a una velocidad y escala que superan tanto a expertos humanos como a sistemas de IA anteriores.

En los puntos de referencia de ciberseguridad, la brecha entre Mythos y Claude Opus 4.6 es difícil de ignorar. Mythos obtuvo 83.1% en Cybergym frente a 66.6% para Opus 4.6, y 93.9% frente a 80.8% en SWE-bench Verified. En SWE-bench Pro, registró 77.8% frente a 53.4% — una diferencia de 24 puntos. Alcanzó 56.8% en Humanity’s Last Exam sin herramientas, frente a 40.0% de su predecesor.

El modelo no necesita entrenamiento específico en ciberseguridad para encontrar estos fallos. Sus avances provienen de mejoras más amplias en el razonamiento, la planificación multinivel y el comportamiento autónomo tipo agente. Dado un código base objetivo en un contenedor aislado, lee el código fuente, formula hipótesis sobre fallos de seguridad de la memoria, compila y ejecuta el software, usa depuradores como Address Sanitizer, clasifica los archivos por probabilidad de vulnerabilidad y produce informes de errores validados con exploits de prueba de concepto que funcionan.

Algunos de esos exploits requirieron casi ninguna dirección humana. Tomshardware.com informa que una vulnerabilidad TCP SACK de OpenBSD de 27 años, un sutil desbordamiento de enteros que permite a un atacante hacer caer remotamente cualquier host que responda al crear paquetes maliciosos, se encontró de forma autónoma tras aproximadamente 1,000 ejecuciones con un costo total inferior a $20,000. Un bug de FFmpeg H.264, de 16 años, sobrevivió más de cinco millones de pruebas automatizadas y múltiples auditorías antes de que Mythos lo detectara.

Los resultados del navegador llamaron especialmente la atención. En las pruebas del motor JavaScript de Firefox 147, Mythos produjo 181 exploits de shell completos y 29 casos de control de registros. Claude Opus 4.6 produjo dos exploits de shell en el mismo conjunto de pruebas. El modelo también construyó cadenas funcionales de escalamiento de privilegios del Linux kernel, de usuario a root en servidores, después de filtrar 100 CVEs recientes hasta 40 candidatos explotables y de explotar con éxito más de la mitad.

Los validadores humanos revisaron 198 de los informes de vulnerabilidad del modelo y estuvieron de acuerdo con sus valoraciones de severidad el 89% de las veces, con un 98% de acuerdo dentro de un nivel de severidad.

Project Glasswing

Menos de 1% de los fallos identificados han sido completamente parcheados hasta ahora. Anthropic está coordinando la divulgación responsable, publicando compromisos criptográficos SHA-3 para los problemas no parcheados y siguiendo un cronograma de 90-plus-45 días antes de publicar los detalles completos. El bug de ejecución remota de código del servidor NFS de FreeBSD CVE-2026-4747, de 17 años, que otorga acceso root completo sin autenticación, está entre los ejemplos mencionados que ya se incluyeron en la divulgación.

Claude Mythos Preview: Anthropic's Unreleased AI Cracked Linux and OpenBSD Bugs Humans Missed for Decades

Project Glasswing, anunciado junto con el modelo, es el intento de Anthropic de orientar estas capacidades hacia la defensa antes de que herramientas similares se vuelvan ampliamente disponibles. Los socios fundadores incluyen Amazon Web Services, Apple, Broadcom, Cisco, Crowdstrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia y Palo Alto Networks. El acceso se está extendiendo a más de 40 organizaciones adicionales de software crítico.

Anthropic se comprometió con $4 millones en donaciones de seguridad de código abierto: $2.5 millones a Alpha-Omega a través de OpenSSF mediante la Linux Foundation, y $1.5 millones a la Apache Software Foundation.

La empresa reconoció que herramientas de IA como Mythos reducen la barrera para encontrar y explotar vulnerabilidades, y señaló un riesgo a corto plazo por parte de actores estatales, China, Irán, Corea del Norte y Rusia, y grupos criminales si capacidades similares se difunden sin controles. Describió un periodo de turbulencia transicional antes de que los defensores integren plenamente la tecnología.

Anthropic dijo que las próximas versiones de Claude Opus incluirán salvaguardas para detectar y bloquear salidas peligrosas de ciberseguridad, y planea introducir un Cyber Verification Program para profesionales de seguridad evaluados. Se espera que un informe público sobre hallazgos de los socios y vulnerabilidades parcheadas esté disponible dentro de 90 días.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios