La nueva métrica del software: cómo las empresas tecnológicas miden el impacto de la IA en el desarrollo

Redacción IT NOW
19 sept
4 Min. de lectura

El 85% de los ingenieros de software ya utiliza herramientas de IA en su trabajo diario, pero aún persiste una pregunta clave: ¿cómo medir si realmente generan valor? Un informe reciente revela cómo compañías como Google, GitHub, Dropbox, Microsoft, Atlassian o Monzo están construyendo marcos de medición que combinan velocidad, calidad, experiencia del desarrollador y sostenibilidad a largo plazo.

La inteligencia artificial se ha convertido en protagonista indiscutible del desarrollo de software. Según la encuesta de Pragmatic Engineer de 2025, el 85% de los programadores utiliza activamente asistentes de IA como GitHub Copilot o Cursor. Sin embargo, a pesar del entusiasmo inicial, las empresas enfrentan un dilema complejo: los costos de estas herramientas son cada vez más altos —impulsados por el consumo de tokens— y la métrica más repetida en titulares, las líneas de código generadas, resulta superficial e incluso engañosa. La verdadera pregunta es si la IA mejora la productividad, la calidad del software y la satisfacción de los equipos, o si solo acumula deuda técnica.

El estudio, liderado por la ingeniera y CTO de DX, Laura Tacho, explora cómo 18 grandes compañías han comenzado a medir rigurosamente el impacto de la IA. La conclusión central es que no basta con cuantificar el volumen de código: es imprescindible un enfoque multifactorial que equilibre velocidad, confiabilidad y experiencia del desarrollador.

Métricas híbridas: entre lo clásico y lo nuevo

Dropbox, por ejemplo, alcanzó un 90% de adopción semanal de herramientas de IA, frente al promedio de la industria que ronda el 50%. Para evaluar el valor real, combina métricas tradicionales —Change Failure Rate, Pull Request throughput— con indicadores específicos de IA como satisfacción del usuario (CSAT), ahorro de tiempo por ingeniero o gasto en tokens. El resultado es significativo: los desarrolladores que usan IA de forma constante logran un 20% más de pull requests semanales y reducen los errores en producción.

Google, GitHub y Microsoft aplican un enfoque similar, midiendo tanto productividad como calidad. Microsoft incluso introdujo el concepto de “bad developer day” (día malo de desarrollador), que cuantifica fricciones como tiempo perdido en reuniones, incidentes o revisiones inútiles. La hipótesis es clara: la IA debería reducir la frecuencia de esos días improductivos.

Glassdoor, en cambio, se centra en la innovación: mide cuántos experimentos o pruebas A/B surgen gracias a la IA. Esto les permite evaluar si las herramientas impulsan la capacidad de prototipar y probar nuevas ideas con mayor rapidez.

Más allá de la velocidad: calidad, mantenibilidad y experiencia

Uno de los grandes riesgos señalados por las empresas es la sostenibilidad del código. La adopción masiva de IA puede acelerar entregas, pero también generar software más difícil de mantener. Por ello, métricas como confianza en el cambio (qué tan seguros están los desarrolladores de que sus modificaciones no romperán producción) o mantenibilidad del código son cada vez más relevantes.

La experiencia del desarrollador (DevEx) se ha posicionado como un contrapeso esencial. Como resume Shelly Stuart, directora de ingeniería en CircleCI: “El output nos dice qué está pasando; la satisfacción de los desarrolladores nos dice si es sostenible”. Tres de cada cuatro empresas del informe ya miden explícitamente la satisfacción con herramientas de IA, conscientes de que un asistente técnicamente poderoso pierde todo valor si resulta frustrante en el día a día.

El caso Monzo: aprendizajes desde la banca digital

El neobanco británico Monzo ofrece un ejemplo revelador. Su equipo comenzó con GitHub Copilot, y más tarde probó herramientas como Cursor y Claude Code. Según Suhail Patel, líder de plataformas, el impacto es difícil de cuantificar con exactitud, pero los ingenieros reportan beneficios concretos: menor carga cognitiva, mejor acceso a documentación y más eficiencia en tareas tediosas como migraciones de código, donde estiman ahorros de entre 40% y 60% en esfuerzo.

No obstante, Patel advierte sobre limitaciones serias: “Si debemos dedicar tanto tiempo a corregir código generado como lo que tomaría escribirlo a mano, no hemos avanzado nada”. Además, Monzo prohíbe el uso de IA en áreas sensibles que involucran datos de clientes, por los riesgos de fuga de información.

Costos, ROI y el futuro de la medición

Un punto sensible es el económico. Con presupuestos internos de IA que, según ICONIQ, se duplicarán en 2025, algunas compañías incluso están reduciendo contrataciones para financiar licencias de herramientas. A la vez, los precios de los modelos aumentan y el consumo de tokens se vuelve una preocupación creciente. Casos como el de Shopify, que creó un “AI Leaderboard” para celebrar a los desarrolladores que más experimentan con IA, muestran cómo algunas empresas gestionan este equilibrio entre costos y cultura de innovación.

La medición del impacto de agentes autónomos de IA aún es incipiente, pero se espera que en los próximos 12 a 18 meses se convierta en una prioridad, especialmente a medida que estas tecnologías empiecen a asumir flujos de trabajo completos.

Medir para no caer en la trampa del hype

El consenso entre los gigantes tecnológicos es claro: no existe un único indicador capaz de reflejar el impacto real de la IA en el desarrollo de software. En lugar de obsesionarse con líneas de código o tasas de aceptación, las empresas más avanzadas construyen marcos de métricas híbridos que cruzan datos de productividad, calidad, experiencia y costos.

En palabras de Tacho, el objetivo no es demostrar que la IA “produce más código”, sino responder una pregunta más profunda: ¿está ayudando a entregar software de calidad, más rápido y con menos fricciones? Esa es la brújula que marcará la diferencia entre compañías que adoptan la IA de forma sostenible y aquellas que quedan atrapadas en promesas efímeras.