Cómo se comportan los agentes de IA en escenarios reales
- Redacción IT NOW
- hace 6 horas
- 2 Min. de lectura
Un estudio de Anthropic analizó millones de interacciones reales entre humanos y agentes de inteligencia artificial para medir cuánta autonomía se les otorga, cómo evoluciona esa autonomía con la experiencia y en qué áreas se están utilizando. Las conclusiones señalan tendencias claras en supervisión, uso por dominio y prioridades de diseño para el despliegue seguro de agentes con capacidades de acción.

En un momento en que las labores automatizadas con IA están dejando de ser conceptos futuristas para convertirse en prácticas cotidianas en sectores empresariales y de ingeniería, Anthropic publicó un análisis cuantitativo de cómo se comportan los “agentes” en uso real. El documento parte de una premisa aparentemente simple: aunque los sistemas de IA pueden recibir un enorme poder de decisión, la forma en que las personas realmente interactúan con ellos varía significativamente según la experiencia y la complejidad de la tarea.
El estudio se basa en millones de llamadas de herramientas realizadas tanto a través de la API pública de Claude como en sesiones interactivas de Claude Code, el agente de programación de la compañía. Uno de los hallazgos más reveladores es que la duración de las sesiones en las que Claude trabaja sin intervención humana ha casi duplicado en apenas unos pocos meses, pasando de menos de 25 minutos a más de 45 minutos en el percentil 99,9. Esto sugiere que los agentes son capaces de operar más tiempo de forma independiente, especialmente cuando los usuarios asumen tareas más ambiciosas.
La experiencia del usuario modula fuertemente cuánta autonomía concede: entre usuarios nuevos, alrededor del 20 por ciento de las sesiones se ejecutan con aprobación total automática, mientras que entre los usuarios con más de 750 sesiones esa cifra supera el 40 por ciento. Esto muestra que la confianza y el entendimiento de los límites del sistema impactan directamente en las decisiones de supervisión humana.
Otro aspecto clave del análisis es la forma en que los agentes y los humanos supervisan en tareas complejas. Según los datos, Claude Code “se detiene para pedir aclaraciones” —un tipo de auto-suspensión— más del doble de veces de lo que los usuarios interrumpen su trabajo. Este comportamiento puede entenderse como un mecanismo de seguridad intrínseco, aunque también plantea preguntas sobre la calibración de confianza y el balance entre independencia y precisión en agentes más avanzados.
En términos de aplicaciones, gran parte de la actividad automática observada está en el terreno de la ingeniería de software (cerca del 50 por ciento), pero hay señales emergentes de despliegues en finanzas, salud y ciberseguridad, ámbitos donde los errores pueden tener consecuencias mayores. Para los investigadores de Anthropic, estos patrones subrayan la necesidad de nuevas infraestructuras de monitoreo post-despliegue y un cambio en cómo diseñadores, clientes y reguladores piensan la autonomía y el riesgo.




Comentarios