top of page

Phi-3 Mini: el modelo de IA de Microsoft para dispositivos móviles

Tiene 3.800 millones de parámetros y está optimizado para funcionar en dispositivos como smartphones y laptops.


Microsoft continúa innovando en el campo de la IA con el lanzamiento de un modelo notablemente compacto y eficiente, diseñado para ser una solución accesible tanto para dispositivos personales como para aplicaciones empresariales. 


Este modelo de lenguaje, con sus 3.800 millones de parámetros, está especialmente diseñado para funcionar en dispositivos menos potentes, como teléfonos móviles y laptops. A diferencia de modelos más grandes, como el GPT-4, este modelo fue entrenado con un conjunto de datos creado a partir de "cuentos infantiles" generados por otros modelos de lenguaje. Este enfoque busca simplificar temas complejos a través de un lenguaje más accesible y estructuras de oraciones más simples, ideal para la enseñanza y el aprendizaje automático en contextos restringidos.


La optimización del modelo permite que este opere de manera local en dispositivos móviles, como demostró Microsoft al ejecutarlo en un iPhone 14 con chip A16 Bionic. Esto es posible gracias a una técnica conocida como cuantificación a 4 bits, que reduce significativamente la memoria necesaria para su funcionamiento, ocupando sólo 1.8 GB.


En términos de rendimiento, este modelo se compara con otros de mayor tamaño, alcanzando un 69% en el benchmark MMLU y 8.38 en MT-bench, lo que lo hace adecuado para ejecutarse en teléfonos móviles. Estos resultados son comparables a modelos más grandes como Mixtral 8x7B y GPT-3.5, lo que destaca su eficacia a pesar de su reducido tamaño.



En contraste, otras compañías han desarrollado modelos similares enfocados en aplicaciones específicas. Por ejemplo, Google lanzó Gemma 2B y 7B, diseñados para tareas sencillas de chatbot y trabajos relacionados con el lenguaje. Anthropic introdujo Claude 3 Haiku, capaz de leer y resumir documentos de investigación complejos, mientras que Meta presentó Llama 3 8B, adecuado también para chatbots y asistencia en codificación.


Aunque este modelo es altamente capaz en contextos específicos, tiene limitaciones en tareas que requieren un amplio conocimiento factual, como TriviaQA, debido a su tamaño reducido. Para abordar esto, Microsoft sugiere la posibilidad de complementar el modelo con un motor de búsqueda que permita acceder a información externa cuando sea necesario.


El modelo también se centra principalmente en el inglés, lo que plantea la necesidad de explorar capacidades multilingües para modelos de IA de tamaño reducido, con el fin de ampliar su aplicabilidad global.


Pese a estas limitaciones, este modelo representa un avance significativo en la creación de modelos de IA que no solo son potentes y capaces, sino también accesibles y prácticos para su uso diario. Su capacidad de funcionar en dispositivos móviles sin necesidad de acceso a internet lo posiciona como una herramienta valiosa tanto para usuarios individuales como para entornos empresariales.


Comments


bottom of page