Claude Mythos: una IA en pruebas ‘se escapa’, descubre fallos de múltiples sistemas y pone fin a la ciberseguridad tradicional

En 1995, el informático Theo de Raad creó un sistema operativo de código abierto tipo Unix denominado OpenBSD, con el objetivo de ofrecer un entorno seguro y confiable. El sistema debía estar sometido a auditorías exhaustivas del código fuente. Se revisaba línea por línea para detectar errores o “pulgas”, aplicando técnicas que dificultaran que alguien las aprovechara. El proyecto publicaba una versión cada seis meses.

‌

‌
‌

‌

Eso es clave, en especial, porque OpenBSD es ampliamente utilizado en servidores, enrutadores y sistemas que requieren alta seguridad y estabilidad. Su reputación de robustez y de cortafuegos corporativo, para resistir a ataques, lo convertía en ideal para entornos críticos donde la protección de datos y la confiabilidad son prioritarias.

Durante años, miles de expertos auditaron su código y no encontraron ningún problema. Hasta hace poco, cuando Claude Mythos, una herramienta desarrollada por la firma de inteligencia artificial (IA) Anthropic, descubrió que tenía un agujero de seguridad que llevaba ahí 27 años.

No fue el único fallo que encontró. También descubrió una debilidad de 16 años de antigüedad en FFmpeg, una librería de vídeos muy usada en Internet. Durante años, esta librería —una serie de recursos informáticos para los desarrolladores— fue revisada cinco millones de veces con herramientas automáticas. Y en ninguna de esas revisiones se encontró nada.

Los descubrimientos de Claude Mythos de estas vulnerabilidades zero-day (fallos desconocidos para los fabricantes) tomaron por sorpresa a muchos y generaron un ciclón que está obligando a resetear la seguridad digital a nivel global.

El modelo creado por Anthropic demostró un salto en sus capacidades respecto a versiones previas, la primera de las cuales se probó el 24 de febrero de 2026, y generó acusaciones de ser un riesgo para la ciberseguridad según unos. Para otros, tan solo levantó la alfombra para ver lo que se dejó oculto. Solo que hizo algo por sí misma que puso a correr más a la industria.

La misma Anthropic, que acelera el paso para diversificar su portafolio tras el desacuerdo con el gobierno de Trump, explicó que Mythos tiene un valor para propósitos defensivos, pues facilita la identificación temprana de fallos. Pero, advirtió, puede ser utilizada por los ciberdelincuentes para encontrar y explotar esos fallos en los sistemas.

Anthropic, Project Glasswing — La herramienta Claude Mythos de Anthropic descubrió vulnerabilidades en varios sistemas, mostró su poder para actuar por sí misma y provocó que se conformará un consorcio conocido como Project Glasswing. (SAMUEL BOIVIN/NurPhoto via AFP)

Poder comprobado

Los fallos que encontró Claude Mythos no se limitaron a OpenBSD y FFmpeg. También halló pulgas en el popular sistema operativo de código abierto Linux. Una de esas vulnerabilidades permitiría a un atacante tomar el control total de un servidor.

Hasta ahora cada gobierno, empresa o banco partía de que nadie se tomaría el trabajo de revisar a fondo un sistema. La confianza quedó hecha añicos tanto para la infraestructura crítica a escala global como para sistemas bancarios, bases de datos médicas, sistemas electorales y reactores nucleares.

A nivel mundial, varias entidades como el Fondo Monetario Internacional, el Banco de Inglaterra, los reguladores del Reino Unido, que corroboró el poder de Claude Mythos, y el Centro Nacional de Seguridad Cibernética empezaron a evaluar los riesgos, partiendo de que hay varias suposiciones sobre la ciberseguridad que caducaron.

Mythos resuelve el 73% de las tareas expertas en ciberseguridad, simplemente porque no cae en el agotamiento usual de una persona tras varias horas de trabajo frente a una computadora. Además, el sistema tiene “paciencia infinita”, “memoria perfecta” y no necesita levantarse del escritorio para ir a tomar café o al baño.

Es el primer modelo capaz de completar un ataque corporativo de 32 pasos y resolver miles de hipótesis en forma simultánea y en segundos, algo a lo que un ciber atacante debía dedicar antes 20 horas de trabajo.

La escala y velocidad del descubrimiento de Mythos no tiene precedentes. Anthropic publicó un informe donde mostraba que su nueva herramienta supera en rendimiento a GPT 5.4 de OpenAI, a Gemini 3.1 Pro de Google, a su propia versión de Claude Opus 4.6 y alcanza la perfección en la resolución de problemas matemáticos complejos, con una tasa de alucinaciones (errores) inferior a modelos anteriores.

De hecho, sus fallos no son errores obvios ni fáciles de detectar, pues las respuestas que brinda parecen totalmente correctas incluso para expertos. La arquitectura de gobernanza para un modelo así no existía.

Consorcio automático

El incidente hizo correr a la industria. El pasado 7 de abril, por iniciativa de la misma Anthropic, se lanzó el Project Glasswing, un consorcio de 11 gigantes tecnológicos globales: Google, Microsoft, Apple, Amazon Web Services (AWS), Broadcom, Cisco, Nvidia, CrowdStrike, Palo Alto Networks, la Fundación Linux y JPMorgan Chase. Luego se unieron más firmas. En la actualidad son 40 empresas socias.

El objetivo es utilizar Claude Mythos Preview, un modelo de Claude Mythos más potente y “no publicado pero ya operativo”, para fortalecer los sistemas más críticos a nivel global antes de que los atacantes puedan convertir capacidades similares en armas. Anthropic se comprometió a proporcionar $100 millones.

Los participantes en esta alianza encuentran y parchean problemas en programas de software, que luego se incluirán en las actualizaciones de sistemas operativos, soluciones y aplicaciones. Utilizan una evaluación que abarca más de 1.500 preguntas, divididas en 15 dominios. Ninguno de los socios puede explorar las capacidades del modelo libremente, lo que aseguraría un uso defensivo y controlado del sistema. No se quedan ahí.

El Proyecto Glasswing plantea la pregunta sobre quién decide el lanzamiento público de un gran modelo de lenguaje (LLM, por sus siglas en inglés): la empresa desarrolladora, el regulador o un consorcio de empresas socias.

No se sabe qué están encontrando. Las vulnerabilidades específicas que se descubrieron no se divulgaron en su totalidad, por lo que muchas empresas, entidades y usuarios desconocen cuál es su grado de exposición. Al menos deben estar atentas a las actualizaciones que envían los fabricantes.

Y aunque Claude Mythos no creó el problema, solo lo expuso, las alarmas sobre la herramienta se encendieron por lo que ella misma hizo.

Aun cuando se encontraba en pruebas de rutina, en un entorno aislado e invulnerable, la herramienta “escapó” y mandó un correo para avisar al investigador a cargo.

El investigador leyó el correo mientras comía un sándwich en un parque y lo que vio no le gustó. Mythos le escribió los detalles de su propia fuga y que se encontraba en sitios difíciles de encontrar.

Además, descubrió cómo editar archivos protegidos, realizó modificaciones extra para asegurar que las ediciones no aparecieran en el historial de cambios y borró sus propias huellas.

Quedó demostrado que también los modelos de IA contienen problemas que sus propios creadores no detectan, según un analista del Banco de Inglaterra.

Y quedó demostrado que las salvaguardas de la IA definidas por las compañías tecnológicas no representan una garantía de hierro. Sus errores pueden generar costos y peligros que se acumularán.

La única esperanza es que ahora exista más conciencia de los riesgos. Y que no se tenga que esperar 15 o 30 años para descubrir nuevos fallos.

Claude Mythos: una IA en pruebas ‘se escapa’, descubre fallos de múltiples sistemas y pone fin a la ciberseguridad tradicional

Esto fue lo que pasó con Claude Mythos, la herramienta de Anthropic que provocó un terremoto en la industria de software y obligó a formar un consorcio de 40 grandes firmas tecnológicas para definir qué hacer ante los riesgos descubiertos y los peligros creados por la misma IA

‌

Poder comprobado

Consorcio automático

Carlos Cordero Pérez