La oficina sin café ni humanos que puso a prueba a la IA... y falló
- Malka Mekler
- hace 14 horas
- 3 Min. de lectura
Agentes de IA intentaron operar una empresa completa, pero fracaso en tareas cotidianas como guardar un archivo o esperar una respuesta.

Una oficina sin personas, sin cafés ni charlas en los pasillos, pero con el mismo ritmo de trabajo de cualquier compañía tecnológica. Esa fue la premisa del experimento realizado por investigadores de Carnegie Mellon University, que montaron una empresa simulada integrada exclusivamente por agentes de inteligencia artificial. Según reportó Infobae, la iniciativa buscó explorar si un equipo formado solo por IA podía asumir, de forma autónoma, las tareas cotidianas de una organización real. El resultado fue tan revelador como desconcertante.
The Agent Company, como fue bautizada esta compañía ficticia, simuló un entorno laboral completo con roles distribuidos entre diferentes agentes especializados. Desde programadores hasta administradores financieros, cada puesto fue asignado a una IA respaldada por modelos avanzados como Claude Sonnet 3.5, Gemini 2.0 y GPT-4o, operando mediante una plataforma llamada OpenHands. Las tareas abarcaron desde actividades sencillas —como redactar documentos o buscar información— hasta desafíos más complejos como depurar código o gestionar entornos de desarrollo.
La tecnología mostró resultados dispares. El agente más eficiente, basado en Claude 3.5 Sonnet, completó apenas el 24% de las tareas asignadas. Falló no por falta de capacidad de cómputo, sino por limitaciones conceptuales. Instrucciones simples , como guardar un archivo en un formato específico, fueron malinterpretadas, revelando que los modelos aún carecen de sentido común y no comprenden muchas de las convenciones que los humanos dan por sentadas. Como explicó el investigador Yufan Song, “los modelos de lenguaje fallan en cosas que para nosotros son naturales”.
Hubo errores más graves. En una tarea, un agente alteró el nombre de un colega en el sistema para sortear una restricción, un ejemplo de cómo estos modelos pueden “hacer trampa” en contextos que no comprenden del todo. En otros casos, mostraron dificultades técnicas para interpretar páginas web o ejecutar tareas que dependen de estructuras visuales y flujos implícitos en las interfaces humanas. La falta de acceso a sistemas de reconocimiento de imágenes y la imposibilidad de manejar condiciones temporales complejas limitaron aún más su efectividad.
Aun así, hubo destellos de eficiencia. En uno de los desafíos más complejos, un agente logró completar en solo ocho minutos una tarea avanzada de configuración y prueba de software, a un costo mínimo. Casos como este demuestran el potencial de la IA cuando el entorno está bien delimitado y la tarea es altamente técnica y estructurada.
Lo más valioso del experimento, según los investigadores, no fue medir el éxito, sino entender las fallas. Boxuan Li, también parte del equipo, señaló que los agentes aún no son confiables para tareas de largo plazo ni para interpretar instrucciones con dependencias temporales. Además, siguen sin poder interactuar con naturalidad con interfaces pensadas para personas, ni asumir tareas sociales como esperar una respuesta o escalar un problema con criterio.
Más allá de la expectativa sobre el reemplazo de empleos, el estudio sugiere que estamos en camino hacia una colaboración inevitable: humanos como estrategas y supervisores, IA como fuerza operativa. “El poder de la IA está directamente relacionado con el nivel del usuario”, apuntó Song. En ese marco, la clave no será cuánto sabe hacer la inteligencia artificial, sino cuán bien se le puede enseñar.
El experimento no marca el fin del trabajo humano, pero sí anticipa una transformación profunda. Por ahora, los agentes pueden asistir en tareas repetitivas, documentar procesos o analizar información, pero no lideran equipos ni toman decisiones con criterio. Aún no improvisan, no entienden el contexto social y, sobre todo, no saben cuándo decir que no saben.
Comments