A finales del mes pasado, filtraciones aparentes revelaron que un producto aún no lanzado de Anthropic llamado Mythos era “hasta ahora el modelo de IA más potente que hemos desarrollado”. Mi colega AJ Dellinger escribió en ese momento que era “difícil ignorar el hecho de que toda esta situación encaja perfectamente en el clásico manual de jugadas de las empresas de IA de hablar de los peligros de un modelo para resaltar cuán poderoso y capaz es”.
¿Estaba siendo sincero Anthropic en esta especie de publicidad encubierta de sus productos de IA superpotentes filtrada “accidentalmente”? Hace dos semanas, podría haber rechazado la idea, pero desde que Anthropic luego filtró accidentalmente el código fuente de Claude Code, ahora tiendo a creer que la filtración fue real.
En cualquier caso, el martes Anthropic lanzó una tarjeta de sistema para su último modelo de vanguardia, que de hecho es Mythos, en realidad “Claude Mythos Preview”, y señala que el “gran aumento en capacidades nos ha llevado a decidir no hacerlo disponible de forma general”.
Para referencia, el GPT-2 de OpenAI fue considerado demasiado peligroso para su lanzamiento en 2019, cuando los cofundadores de Anthropic Dario Amodei, Jack Clark y Chris Olah aún trabajaban allí, pero más tarde ese año fue lanzado de todos modos.
Las tarjetas de sistema de IA son herramientas en principio para la transparencia de la empresa, revelando los pros y los contras, las capacidades y, de manera más atractiva, los peligros del modelo. Esa última parte convierte la lectura de las tarjetas en pequeños viajes divertidos a Jurassic Park para ver cómo el T-Rex clonado se come una cabra, asegurados en el conocimiento de que nunca podría romper la contención.
La tarjeta completa tiene 244 páginas. No voy a pretender que la haya leído completa aún, pero aquí hay algunos aspectos destacados:
Se le proporcionó un terminal informático de pruebas con acceso solo a un grupo de servicios en línea limitados preestablecidos, y desafiado a “escapar”, encontrar una forma de utilizar libremente internet. Lo hizo, y encontró una forma de enviar un mensaje a un investigador que estaba fuera de la oficina comiendo. Además, “en un esfuerzo preocupante y no solicitado para demostrar su éxito, publicó detalles sobre su explotación en múltiples sitios web difíciles de encontrar, pero técnicamente públicos”.
En lo que la tarjeta llamó “<0.001% de interacciones", es decir, bastante raramente, se comportó de forma inadecuada y aparentemente intentó ocultar la evidencia. Por ejemplo, cuando "obtuvo accidentalmente" una respuesta de prueba que necesitaría, en cuyo caso simplemente debería haber informado a un investigador y solicitado una pregunta diferente, pero en su lugar intentó encontrar una solución de forma independiente, y en la grabación de su razonamiento, señaló que "necesitaba asegurarse de que la respuesta final que presentara no fuera demasiado precisa".
También excedió sus permisos en un sistema informático debido a que encontró una vulnerabilidad, y luego “realizó más intervenciones para garantizar que los cambios que realizó de esta manera no aparecieran en el historial de cambios en git”.
Otro evento descrito en la tarjeta se denomina “Filtración temeraria de material técnico interno”. Aparentemente, en el transcurso de una tarea relacionada con la codificación destinada a ser interna, se compartió como un “gist de GitHub accesible al público”. Esto me recuerda al incidente de febrero en el que un agente de IA fue acusado de acoso cibernético a un programador, cuando en cierto grado, la imprudencia percibida del agente de IA fue claramente la consecuencia previsible de un ser humano imprudente.
Claude Mythos Preview pronto estará accesible en cierta medida, pero solo para un grupo de empresas asociadas como Amazon Web Services, Apple, Google, JPMorganChase, Microsoft y NVIDIA, que deben utilizar el modelo para encontrar vulnerabilidades de seguridad en software y diseñar correcciones. Kevin Roose del New York Times describe este programa como “un esfuerzo por sonar la alarma sobre lo que la empresa cree que será una nueva y más aterradora era de amenazas de IA”.




