top of page

Los bots de IA ganan terreno en la seguridad ofensiva

El experimento de Stanford evidenció que herramientas como Artemis no solo aceleran la detección de fallas, sino que también pueden superar a casi todos los humanos en pruebas reales.


ree

La capacidad de los modelos de inteligencia artificial para ejecutar ataques y detectar vulnerabilidades está avanzando a una velocidad que comienza a superar a los especialistas humanos en pruebas de penetración. Ese es el escenario que reveló un experimento reciente, según informó The Wall Street Journal, en el que un bot de IA no solo logró identificar fallas reales en una red universitaria, sino que además venció a casi todos los profesionales que intentaron hacer lo mismo.


El proyecto estuvo liderado por Justin Lin, investigador de ciberseguridad de Stanford, quien puso a prueba a Artemis, un sistema diseñado para escanear redes, detectar fallos y explotarlos de forma autónoma. Inspirado en los métodos usados por grupos chinos que, según reportes previos, habían empleado modelos generativos para penetrar infraestructuras críticas, Artemis fue diseñado para replicar ese tipo de análisis automatizado, pero en un entorno controlado.


La sorpresa para el equipo llegó cuando el sistema, que inicialmente esperaban que tuviera un desempeño limitado, comenzó a operar con una precisión comparable a la de un experto experimentado. Al enfrentarlo contra diez profesionales de pruebas de penetración contratados para evaluar la red de la Escuela de Ingeniería de Stanford, Artemis superó a nueve de ellos. En cuestión de minutos identificó fallas, propuso rutas de explotación y generó reportes técnicos capaces de guiar una corrección. Lin reconoció que el equipo asumió que el modelo sería “inferior al promedio”, pero terminó impresionado por su capacidad de análisis y ejecución.


Rob Ragan, investigador de Bishop Fox, explicó que esta generación de modelos está alcanzando un nivel que permite automatizar tareas tradicionalmente costosas y lentas. Su equipo ha usado LLMs para construir herramientas que evaluan software a una escala que sería inviable para una firma tradicional de pruebas. Ejecutar Artemis costaba menos de US$60 la hora, un contraste drástico frente a los honorarios diarios de un especialista humano.


Aun así, el bot no fue infalible, cerca del 18% de sus hallazgos fueron falsos positivos y, en al menos un caso, ignoró una vulnerabilidad evidente que todos los humanos detectaron. Pero también exhibió capacidades que ningún analista replicó. Al revisar una página obsoleta que los navegadores modernos ya no procesaban, Artemis optó por una herramienta distinta para acceder al contenido y descubrió una falla que había pasado desapercibida incluso para quienes mantienen el software involucrado. Ese programa era Curl, un componente ampliamente usado en redes y servicios digitales.


Para Alex Keller, responsable de seguridad de redes en la Escuela de Ingeniería de Stanford, el experimento representó más beneficio que riesgo. La prueba no solo permitió reducir vulnerabilidades históricas de la red, sino que demostró cómo un sistema de IA, con los controles apropiados, incluido un interruptor de apagado total, puede convertirse en una herramienta defensiva de gran valor.


Pero el avance también genera alertas. Dan Boneh, profesor de Ciencias de la Computación en Stanford y asesor del proyecto, advirtió que existe una gran cantidad de software en circulación que nunca fue evaluado con modelos de lenguaje capaces de identificar fallas con tanta profundidad. Eso deja abierta la posibilidad de que actores maliciosos utilicen modelos similares para encontrar y explotar vulnerabilidades inéditas. Jacob Klein, jefe de inteligencia de amenazas en Anthropic, coincide en la advertencia, la capacidad de “incrementar la productividad para encontrar fallas a una escala extrema” está ahora al alcance de múltiples actores.


La evidencia no solo proviene de ataques. Daniel Stenberg, responsable de Curl, confirmó que mientras el año pasado recibían reportes automáticos plagados de errores, en los últimos meses comenzaron a llegar hallazgos de alta calidad respaldados por herramientas de análisis generativo más precisas. En total ha recibido más de 400 reportes, algunos de ellos detectando fallas que ningún humano había identificado.


El experimento de Stanford plantea un cambio de era: los modelos de IA ya no solo participan del proceso de hacking, sino que comienzan a dominarlo. Aunque aún presentan fallas y requieren supervisión, su velocidad, costo reducido y capacidad para analizar código a una escala inédita los posicionan como un nuevo actor en el equilibrio de poder digital. El desafío ahora será reforzar infraestructuras y estándares de seguridad antes de que estas mismas capacidades sean aprovechadas con otros fines.


Comentarios


itnow-03.png

© Derechos reservados

Connecta B2B - 2025

Políticas de privacidad

ACERCA DE NOSOTROS

IT NOW es un espacio multiplataforma y un núcleo para conectar negocios que se compone de varios elementos: su sitio web con noticias de TI relevantes en la región, un newsletter semanal, su multiplataforma de redes sociales, por último, sus eventos enfocados en las verticales de TI y en donde destaca el aclamado Tech Day, la gira de actualización tecnológica más importante de la región.

24 / 7 Actualizaciones en nuestras Redes Sociales
  • Facebook
  • Instagram
  • LinkedIn
  • YouTube
  • X
  • RSS
bottom of page