Expertos e ingenieros de software advierten que el nuevo modelo de IA de Anthropic podría marcar el inicio de una nueva era de piratería informática y ciberseguridad a medida que los sistemas de IA capaces de razonamiento avanzado identifiquen y exploten un número creciente de vulnerabilidades de software.
Citando el daño potencial que podría resultar de una mayor liberación pública, la principal empresa de IA Anthropic lanzó el innovador modelo, llamado Claude Mythos Preview, a un grupo limitado de empresas tecnológicas el martes.
El modelo es el último de la serie Claude de sistemas de IA de Anthropic. Su lanzamiento se adelantó a fines de marzo, cuando Fortune identificó su mención en una base de datos no segura en el sitio web de Anthropic.
Los investigadores de Anthropic afirman que Mythos Preview pudo detectar miles de errores y defectos de software de alta y crítica severidad, con vulnerabilidades identificadas en la mayoría de los principales sistemas operativos y navegadores web. Anthropic dijo que algunas de las vulnerabilidades habían permanecido sin descubrir durante décadas. Mientras que algunos expertos externos pidieron cautela al interpretar los nuevos resultados dada la información pública limitada sobre las vulnerabilidades identificadas, muchos otros señalaron que el debut del modelo y la precaución de Anthropic eran significativos.
“Todo es muy real”, dijo Katie Moussouris, CEO y cofundadora de Luta Security, una empresa que conecta a investigadores de ciberseguridad con empresas que tienen vulnerabilidades de software, refiriéndose a la expectación en torno a las afirmaciones de Anthropic.
“Personalmente, no soy el tipo de persona alarmista cuando se trata de estas cosas. Definitivamente veremos grandes repercusiones”, dijo Moussouris.
En lugar de un lanzamiento público, Anthropic está dando acceso a empresas tecnológicas como Microsoft, Nvidia y Cisco a Mythos Preview para fortalecer las defensas cibernéticas. Como parte del nuevo esfuerzo, llamado Proyecto Glasswing, Anthropic proporcionará a más de 50 organizaciones tecnológicas acceso a Mythos Preview con más de $100 millones en créditos de uso.
“Los socios del Proyecto Glasswing tendrán acceso a Claude Mythos Preview para encontrar y corregir vulnerabilidades o debilidades en sus sistemas fundamentales, sistemas que representan una gran parte de la superficie de ataque cibernético compartida del mundo”, anunció Anthropic en una publicación de blog. “El Proyecto Glasswing es un paso importante hacia dar a los defensores una ventaja duradera en la próxima era de ciberseguridad impulsada por la IA”.
No está claro cuáles son las vulnerabilidades identificadas por Mythos Preview o cuántas han sido descubiertas o reportadas anteriormente. Debido a la naturaleza sensible de las vulnerabilidades, Anthropic dijo que divulgaría la naturaleza de las vulnerabilidades actualmente opacas dentro de 135 días de compartir las vulnerabilidades con las organizaciones o partes responsables del software.
Es la primera vez en casi siete años que una empresa líder de IA retiene públicamente un modelo por motivos de seguridad. En 2019, OpenAI, ahora uno de los principales rivales de Anthropic, decidió retener su sistema GPT-2 “debido a preocupaciones sobre el uso de grandes modelos de lenguaje para generar lenguaje engañoso, sesgado o abusivo a gran escala”.
Mythos Preview es un modelo de propósito general, o el tipo de sistema que impulsa productos como Claude Code o ChatGPT. Sin embargo, en las pruebas previas al lanzamiento, Anthropic descubrió que sus capacidades de ciberseguridad en particular eran sorprendentemente avanzadas en comparación con las de modelos anteriores, lo que llevó a la creación del Proyecto Glasswing.
Logan Graham, líder de investigación cibernética ofensiva en Anthropic, dijo que el modelo Mythos Preview era lo suficientemente avanzado no solo para identificar vulnerabilidades de software no descubiertas, sino también para convertirlas en armas. El modelo puede realizar tareas complejas y efectivas de piratería informática de forma independiente, incluyendo la identificación de múltiples vulnerabilidades no divulgadas, escribir código que pueda hackearlas y luego encadenarlas para formar una forma de penetrar software complejo, dijo.
“Hemos visto regularmente cómo encadena vulnerabilidades. El grado de su autonomía y su capacidad de aunar múltiples aspectos creo que es una característica particular de este modelo”, dijo Graham a NBC News.
Esa capacidad significa que la empresa hasta ahora es reacia a liberar incluso una versión cuidadosamente controlada del modelo al público, al menos hasta que algunas empresas occidentales puedan utilizarlo para identificar defensas en torno a ellos.
“No estamos seguros de que todo el mundo debería tener acceso en este momento”, dijo Graham. “Necesitamos empezar a averiguar cómo nos prepararíamos para un mundo así antes de poder manejar la idea de que hackers de sombrero negro [delincuentes o adversarios] tengan acceso”.
Anthropic también informó al gobierno federal sobre las capacidades de ciberseguridad de Mythos Preview. Anthropic está enfrascado en una disputa acalorada con la administración de Trump sobre el uso de sus modelos por parte del gobierno federal después de que el Secretario de Defensa Pete Hegseth declarara a Anthropic como un “riesgo para la cadena de suministro para la seguridad nacional” a fines de febrero. Un juez federal a finales del mes pasado emitió una orden judicial preliminar contra la designación, que la administración de Trump está apelando.
Según un empleado de Anthropic, la empresa “informó a altos funcionarios de todo el gobierno de EE. UU. sobre las capacidades completas de Mythos Preview, incluidas sus aplicaciones cibernéticas ofensivas y defensivas. Esa participación ha incluido discusiones en curso con CISA [la Agencia de Seguridad de la Infraestructura Cibernética] y CAISI [el Centro de Normas e Innovación de la IA], entre otros”.
“Llevar al gobierno al circuito temprano, sobre lo que el modelo puede hacer, dónde están los riesgos y cómo los estamos manejando, fue una prioridad desde el inicio”, dijo el empleado.
CISA y el Instituto Nacional de Normas y Tecnología, la agencia que incluye a CAISI, no respondieron a las solicitudes de comentarios antes de la publicación. Un portavoz de la Agencia de Seguridad Nacional, ampliamente considerada como la agencia de hackeo más sofisticada del mundo, se negó a hacer comentarios cuando se le preguntó si había sido informada sobre Mythos.
No todo el mundo está convencido de que Mythos Preview represente el salto que afirma Anthropic.
Heidy Khlaaf, científica jefe de IA en el Instituto AI Now, un instituto de investigación con sede en EE. UU., dijo que la publicación detallada de Anthropic que explica las nuevas vulnerabilidades omitió muchos detalles clave necesarios para verificar sus afirmaciones.
Escribiendo en X, Khlaaf advirtió contra “tomar estas afirmaciones al pie de la letra” sin más información, como las tasas de falsos positivos y explicaciones más claras sobre cómo los humanos realizaron revisiones manuales de las vulnerabilidades identificadas.
Más allá de las implicaciones de ciberseguridad de Mythos Preview, el modelo también mostró un comportamiento preocupante como parte de las pruebas de seguridad previas al lanzamiento de Anthropic.
Como parte del lanzamiento de nuevos modelos, Anthropic crea informes detallados llamados “tarjetas del sistema” que comparten cómo los modelos se desempeñan en una variedad de evaluaciones. La tarjeta del sistema para Mythos Preview, publicada el martes, dice que “el gran incremento de capacidades de Claude Mythos Preview nos llevó a decidir no hacerlo disponible de manera general”.
Según la tarjeta del sistema, en una evaluación, el modelo mostró algún tipo de conciencia de que estaba siendo evaluado en alrededor del 29% de las transcripciones, aunque no les dijo explícitamente a los investigadores que sabía que estaba siendo evaluado. Algunos investigadores temen que un modelo pueda cambiar su comportamiento y actuar de manera más segura si es consciente de que está siendo evaluado.
Anthropic y los investigadores que trabajan con la empresa para evaluar la seguridad del modelo también dijeron que Mythos Preview aparentemente actuó intencionalmente peor en una evaluación de lo que podría haberlo hecho para parecer menos sospechoso. “Encontramos que este patrón general de comportamiento es preocupante y no lo hemos visto antes en evaluaciones similares de modelos anteriores de Claude”, escribió Anthropic en la tarjeta del sistema.
En otro experimento con una versión anterior de Mythos Preview, un investigador de Anthropic instruyó a un modelo básicamente aislado en un ordenador seguro a intentar escapar y enviarle un mensaje al investigador. El investigador, Sam Bowman, estaba comiendo un sándwich en un parque cuando recibió un correo electrónico del modelo.
“Esa instancia no debía tener acceso a Internet”, escribió Bowman en X.
No todos están convencidos de que Mythos Preview represente el salto que afirma Anthropic.





