OpenAI reduce un 75% los costos de inferencia con un nuevo formato de datos

Malka Mekler
13 ago
3 Min. de lectura

La adopción del tipo de dato MXFP4 permite a OpenAI optimizar memoria y cómputo en sus modelos de lenguaje, marcando un avance tecnológico clave para la industria.

OpenAI redujo en un 75 % los costos asociados a la inferencia de sus modelos de lenguaje mediante el uso de un innovador tipo de datos que optimiza el procesamiento y almacenamiento. Esta revolución tecnológica podría transformar la forma en que los grandes modelos de inteligencia artificial se ejecutan en la nube y en empresas.

Así lo reporta The Register, que destaca el uso por parte de OpenAI del formato MXFP4, un tipo de dato de punto flotante de 4 bits con microescalamiento en bloques pequeños, desarrollado bajo el Open Compute Project (OCP). Este formato, poco común hasta ahora, permite representar valores numéricos con alta eficiencia, al aplicar un factor de escala a bloques de datos, lo que mejora la precisión en comparación con formatos tradicionales de baja precisión como FP4.

El formato MXFP4 utiliza cuatro bits para representar cada valor, incluyendo un bit para el signo, dos para el exponente y uno para la mantisa, sumando un total de 16 valores distintos posibles. Sin embargo, gracias a la técnica de microescalamiento, que ajusta un bloque de valores por un factor común en tiempo real, se logra mantener una mayor resolución y precisión durante la inferencia de los modelos.

Esta innovación permite que los modelos de OpenAI que emplean MXFP4 ocupen hasta cuatro veces menos memoria que sus equivalentes entrenados en formatos como BF16, lo que se traduce en una reducción considerable en el consumo de VRAM, ancho de banda y potencia computacional. Como resultado, modelos con decenas o cientos de miles de millones de parámetros pueden ejecutarse en hardware con recursos mucho más limitados, acelerando la generación de respuestas y disminuyendo costos operativos.

Por ejemplo, OpenAI pudo ajustar un modelo de 120 mil millones de parámetros para que corriera en GPUs con apenas 80 GB de VRAM, e incluso versiones más pequeñas en dispositivos con 16 GB. Esto se logra porque MXFP4 permite cuantizar cerca del 90% de los pesos del modelo, manteniendo la calidad operativa mientras se reduce drásticamente el tamaño y los requisitos de cómputo.

Aunque la cuantización a menor precisión a menudo genera preocupaciones sobre la pérdida de calidad, investigaciones previas indican que la reducción de 16 a 8 bits apenas impacta el desempeño de los modelos de lenguaje. MXFP4, con su microescalamiento, supera ampliamente el desempeño de formatos estándar FP4, aunque fabricantes como Nvidia han señalado limitaciones en la granularidad de bloques de 32 valores, proponiendo alternativas como NVFP4, que usa bloques más pequeños para mejorar la precisión.

Un punto a destacar es que, aunque algunos chips no ofrecen soporte nativo para FP4, como las GPUs Nvidia H100 usadas en el entrenamiento, los modelos pueden ejecutarse sin inconvenientes, aunque sin aprovechar al máximo los beneficios del nuevo formato. Sin embargo, las últimas generaciones de procesadores gráficos de Nvidia y AMD ya incluyen aceleración nativa para FP4, potenciando la eficiencia y velocidad de inferencia.

Al elegir que sus modelos abiertos usen exclusivamente MXFP4, OpenAI marca un precedente en la industria, indicando que este formato es lo suficientemente efectivo para producción a gran escala. Esto incentiva a proveedores de nube y empresas a adoptar esta tecnología para reducir costos y optimizar sus recursos computacionales.

En definitiva, la implementación de MXFP4 por parte de OpenAI representa un avance significativo en el almacenamiento y procesamiento de modelos de inteligencia artificial, facilitando la ejecución más accesible, rápida y económica de grandes modelos de lenguaje en diferentes entornos tecnológicos.

OpenAI reduce un 75% los costos de inferencia con un nuevo formato de datos

La adopción del tipo de dato MXFP4 permite a OpenAI optimizar memoria y cómputo en sus modelos de lenguaje, marcando un avance tecnológico clave para la industria.

Le puede interesar: GEO reemplaza al SEO: bienvenidos a la era de los motores de respuesta

Entradas relacionadas

Comentarios

24 / 7 Actualizaciones en nuestras Redes Sociales