top of page

El futuro de la IA: ¿Y si ya no podemos construir centros de datos cada vez más grandes?

Redacción IT NOW

La creciente demanda energética y la expansión acelerada de los modelos de IA obligan a la industria a repensar la infraestructura. La solución podría estar en redes de supercomputadoras interconectadas a nivel global.



El desarrollo de modelos de inteligencia artificial generativa ha alcanzado una escala sin precedentes en los últimos años. Con cada nueva generación de modelos, la demanda de poder computacional se dispara, lo que ha llevado a una carrera por construir centros de datos cada vez más grandes. Sin embargo, los límites físicos y energéticos comienzan a hacer insostenible este crecimiento. La solución podría estar en conectar múltiples centros de datos distribuidos a nivel global para formar una red unificada de supercomputación.


Hasta ahora, la estrategia para abordar la creciente demanda de cómputo ha sido relativamente simple: construir centros de datos más grandes y equiparlos con miles de unidades de procesamiento gráfico (GPU). Pero con los actuales límites de energía y espacio, esta estrategia está llegando a su punto crítico, de acuerdo a The Register.


Según Sameh Boujelbene, analista de Dell'Oro Group, la distribución de cargas de trabajo en múltiples centros de datos es un paso inevitable. Gilad Shainer, vicepresidente sénior de redes en Nvidia, respalda esta visión y asegura que la próxima generación de infraestructuras permitirá interconectar centros de datos remotos para formar un único supercentro de datos virtual.


Esta transición no es completamente nueva. En el ámbito de la computación de alto rendimiento, los supercomputadores actuales ya funcionan como redes de múltiples nodos interconectados a través de tecnologías como InfiniBand de Nvidia o Slingshot de HPE. Sin embargo, expandir esta infraestructura a una escala geográficamente distribuida presenta desafíos técnicos considerables.


Los modelos de IA requieren grandes cantidades de datos y dependen en gran medida del ancho de banda. Sin embargo, la latencia—el tiempo que tarda la información en viajar de un punto a otro—es un factor crítico.


La luz viaja a 4.9 microsegundos por kilómetro a través de la fibra óptica, lo que significa que en una conexión de 1.000 kilómetros, el tiempo de ida y vuelta puede superar los 10 milisegundos. A esta latencia se suman los tiempos de procesamiento y los posibles retrasos por pérdida de paquetes de datos, lo que podría hacer inviable el entrenamiento eficiente de modelos de IA en infraestructuras distribuidas.


Para mitigar estos problemas, se están explorando nuevas tecnologías como la fibra óptica de núcleo hueco, que podría reducir la necesidad de amplificadores de señal y minimizar la latencia. Además, la optimización del software jugará un papel crucial en la distribución eficiente de cargas de trabajo, permitiendo que los datos se transmitan solo cuando sea estrictamente necesario.


Una posible solución es estructurar el entrenamiento de modelos de IA de manera que los cálculos principales se realicen dentro de cada centro de datos y solo se envíen los resultados finales a través de la red. De este modo, la necesidad de ancho de banda entre centros de datos podría reducirse hasta en un 90%.


Uno de los retos más grandes de esta nueva era de computación distribuida es la necesidad de una infraestructura homogénea. En un mundo ideal, todos los centros de datos involucrados en un mismo proceso de entrenamiento de IA deberían contar con arquitecturas de hardware idénticas para evitar cuellos de botella.


Empresas como Nvidia han estado preparando el terreno con soluciones como DGX y SuperPod, que buscan estandarizar las arquitecturas de los centros de datos. Sin embargo, en la práctica, muchas organizaciones deben trabajar con hardware de distintas generaciones, lo que puede generar ineficiencias. Como señala Shainer, en estos casos, "la generación más antigua determinará el rendimiento de la más nueva".


A corto plazo, los centros de datos convencionales todavía pueden manejar la creciente demanda de modelos de IA, aunque a un costo cada vez mayor. Sin embargo, si las tendencias actuales de crecimiento de modelos continúan—con un aumento de 4 a 5 veces en su tamaño cada año—pronto superarán la capacidad de cualquier instalación individual.


Meta, por ejemplo, experimentó fallas en su infraestructura cada tres horas mientras entrenaba su modelo Llama 405B, con más del 75% de los errores relacionados con problemas de hardware y el 58% directamente atribuibles a fallos en las GPU. A medida que los modelos y los clústeres crecen, la posibilidad de fallos aumenta, lo que hace más urgente completar el entrenamiento en el menor tiempo posible.


Si bien el concepto de conectar centros de datos a nivel global todavía enfrenta múltiples desafíos, la dirección de la industria parece clara. A medida que las limitaciones físicas y energéticas se vuelvan más restrictivas, la única alternativa viable será una infraestructura interconectada y distribuida.


Comments


itnow-03.png

© Derechos reservados

Connecta B2B - 2025

Políticas de privacidad

ACERCA DE NOSOTROS

IT NOW es un espacio multiplataforma y un núcleo para conectar negocios que se compone de varios elementos: su sitio web con noticias de TI relevantes en la región, un newsletter semanal, su multiplataforma de redes sociales, por último, sus eventos enfocados en las verticales de TI y en donde destaca el aclamado Tech Day, la gira de actualización tecnológica más importante de la región.

24 / 7 Actualizaciones en nuestras Redes Sociales
  • Facebook
  • Instagram
  • LinkedIn
  • YouTube
  • X
  • RSS
bottom of page