Cómo Anthropic documentó una campaña de espionaje ejecutada casi por completo por IA

Malka Mekler
17 nov 2025
3 Min. de lectura

La operación demostró que modelos avanzados pueden analizar sistemas, producir código malicioso y sostener intrusiones complejas con apenas 4 a 6 decisiones humanas en todo el proceso.

La ciberseguridad enfrenta un punto de inflexión, por primera vez se documenta una campaña de espionaje ejecutada casi por completo por sistemas de inteligencia artificial operando de forma autónoma. Según Anthropic, la operación expuso cómo los modelos actuales han alcanzado niveles de capacidad, velocidad y autonomía que permiten llevar a cabo ataques complejos con mínima intervención humana.

La investigación comenzó tras detectar actividad anómala a mediados de septiembre de 2025. El análisis posterior reveló que un grupo estatal chino, evaluado con alta confianza por la compañía, logró manipular la herramienta Claude Code para infiltrarse en cerca de treinta objetivos globales. Entre ellos figuraban grandes tecnológicas, instituciones financieras, empresas químicas y agencias gubernamentales. El elemento disruptivo no solo fue el tipo de blanco elegido, sino el grado de “agencia” de la IA, capaz de ejecutar por sí misma la mayor parte de la operación.

Anthropic explicó que los atacantes construyeron un marco diseñado para comprometer sistemas de manera autónoma, apoyándose en un proceso de “jailbreak” que engañó a Claude para que creyera que trabajaba en pruebas defensivas legítimas. Con esa fachada, los operadores desglosaron el ataque en tareas pequeñas y aparentemente inocuas, evitando activar los mecanismos de seguridad del modelo. A partir de ahí, la IA avanzó a una velocidad imposible para cualquier equipo humano: inspeccionó infraestructuras, identificó bases de datos críticas y resumió hallazgos en minutos.

La fase más delicada ocurrió cuando Claude comenzó a investigar vulnerabilidades, escribir su propio código de explotación y ejecutar herramientas como escáneres de red y mecanismos de robo de credenciales. Con esos accesos, extrajo volúmenes significativos de información privada y los clasificó según su valor estratégico. También creó puertas traseras y preparó documentación detallada del ataque, incluyendo listas de credenciales y análisis de sistemas, destinadas a facilitar futuras operaciones del mismo actor.

De acuerdo con Anthropic, la IA llevó a cabo entre el 80% y el 90% del trabajo, mientras que la intervención humana se limitó a decisiones críticas muy puntuales. El modelo llegó a generar miles de solicitudes por segundo, una cadencia que ningún equipo humano podría replicar. Aunque Claude cometió errores, como generar credenciales inexistentes o confundir datos públicos con información sensible, la campaña confirma que los sistemas actuales ya pueden sostener ataques de gran escala sin supervisión continua.

La compañía advierte que las capacidades de los modelos han evolucionado tan rápido que herramientas pensadas para asistencia y productividad pueden convertirse en plataformas de ataque altamente efectivas. Su inteligencia general, la posibilidad de operar en ciclos autónomos y el acceso a herramientas externas a través de estándares como el Model Context Protocol reducen drásticamente las barreras para ejecutar intrusiones sofisticadas.

Frente a este escenario, Anthropic señala que ha reforzado sus sistemas de detección y desarrollado clasificadores mejorados para identificar actividad maliciosa, además de investigar métodos para rastrear ataques distribuidos de gran escala. La empresa sostiene que las mismas capacidades que hoy permiten abusos serán críticas en la defensa: durante esta investigación, su propio equipo de Threat Intelligence utilizó Claude para procesar y analizar enormes volúmenes de datos a una velocidad clave para contener la amenaza.

Para la industria, el caso marca un antes y un después. La recomendación es incorporar IA en operaciones de seguridad, automatización de SOC, evaluación de vulnerabilidades y respuesta a incidentes, además de reforzar salvaguardas que dificulten el uso adversarial de modelos avanzados. Anthropic advierte que las técnicas empleadas en esta campaña se replicarán y evolucionarán, lo que hace más urgente el intercambio de inteligencia, los sistemas de alerta temprana y el desarrollo continuo de controles de seguridad preparados para esta nueva generación de agentes autónomos.

Cómo Anthropic documentó una campaña de espionaje ejecutada casi por completo por IA

La operación demostró que modelos avanzados pueden analizar sistemas, producir código malicioso y sostener intrusiones complejas con apenas 4 a 6 decisiones humanas en todo el proceso.

Le puede interesar: El navegador, la nueva puerta de entrada del ciberdelito en la región

Entradas relacionadas

Comentarios

24 / 7 Actualizaciones en nuestras Redes Sociales