El entrenamiento de modelos avanzados de inteligencia artificial requiere millones de dólares, y los valores están aumentando rápidamente. Cómo las empresas buscan nuevas estrategias para manejar estos gastos crecientes.
El desarrollo y entrenamiento de modelos avanzados de inteligencia artificial, como ChatGPT de OpenAI y Gemini Ultra de Google, conlleva costos astronómicos, alcanzando los cientos de millones de dólares. A medida que aumentan las demandas computacionales, los gastos necesarios para el poder de cómputo se disparan. En respuesta, las empresas de IA están replanteando sus estrategias de entrenamiento de sistemas de IA generativa para reducir los costos computacionales.
El AI Index, en colaboración con la firma de investigación Epoch AI, ha estimado los costos de entrenamiento de los modelos de IA basándose en los precios de alquiler de computación en la nube. Los factores clave analizados incluyen la duración del entrenamiento del modelo, la tasa de utilización del hardware y el valor del hardware utilizado para el entrenamiento.
Aunque muchos especulan que el entrenamiento de modelos de IA se ha vuelto cada vez más costoso, existe una falta de datos exhaustivos que respalden estas afirmaciones. El AI Index es una de las pocas fuentes que proporciona estas estimaciones.
A continuación, se muestra el costo de entrenamiento de los principales modelos de IA, ajustado por inflación, desde 2017:
En 2023, el costo estimado para entrenar GPT-4 de OpenAI fue de US$78,4 millones, un aumento pronunciado respecto al modelo PaLM (540B) de Google, que costó apenas US$12,4 millones apenas un año antes. Para ponerlo en perspectiva, el costo de entrenamiento del Transformer, un modelo temprano desarrollado en 2017, fue de $930. Este modelo desempeña un papel fundamental en la configuración de la arquitectura de muchos modelos de lenguaje grandes utilizados hoy en día.
El modelo de IA de Google, Gemini Ultra, cuesta aún más, alcanzando los US$191 millones. A principios de 2024, este modelo supera a GPT-4 en varias métricas, destacándose especialmente en el benchmark Massive Multitask Language Understanding (MMLU). Este benchmark es crucial para medir las capacidades de los grandes modelos de lenguaje, evaluando el conocimiento y la competencia en la resolución de problemas en 57 áreas temáticas.
Ante estos desafíos, las empresas de IA están encontrando nuevas soluciones para entrenar modelos de lenguaje y combatir los costos en aumento. Estas incluyen la creación de modelos más pequeños diseñados para realizar tareas específicas y la experimentación con la creación de datos sintéticos propios para alimentar a los sistemas de IA. Sin embargo, aún no se ha logrado un avance claro en este campo.
Actualmente, los modelos de IA que utilizan datos sintéticos han demostrado producir respuestas sin sentido cuando se les plantean ciertos comandos, desencadenando lo que se conoce como "colapso del modelo".
El camino hacia adelante en el entrenamiento de modelos de IA será crucial para determinar no solo la viabilidad económica de estos desarrollos, sino también su eficiencia y capacidad para seguir avanzando en el campo de la inteligencia artificial. Las empresas y los investigadores deberán seguir innovando y adaptándose para encontrar métodos más efectivos y económicos para entrenar estos modelos avanzados.
Comments