top of page

Dentro de ChatGPT: ¿cómo funciona realmente?

Detrás de la aparente "magia lingüística" que observan los usuarios, se encuentra un proceso altamente estructurado y meticulosamente diseñado que impulsa el funcionamiento del modelo.


Evan Morikawa, miembro destacado del equipo de ingenieros de OpenAI y uno de los arquitectos principales de ChatGPT, explicó en The Pragmatc Enginner, el blog de Gergely Orosz, cómo el modelo se basa en una serie de etapas clave que permiten procesar la entrada de texto y generar respuestas contextualmente relevantes, con una habilidad para mantener conversaciones coherentes y naturalmente fluidas.


Una de las fases fundamentales en el proceso de funcionamiento de ChatGPT es el preentrenamiento. Durante esta etapa, el modelo se expone a enormes cantidades de datos textuales para aprender la estructura y el significado del lenguaje humano. Este extenso entrenamiento sienta las bases para la capacidad del modelo para comprender y generar respuestas coherentes en una variedad de contextos.


Cuando se le hace una pregunta a ChatGPT, ocurren varios pasos:

  1. Entrada: Toma el texto que se ingresa.

  2. Tokenización: Divide a entrada en tokens. Un token mapea aproximadamente a un par de caracteres unicode. Podría pensar en ello como una palabra.

  3. Crear embeddings: Se convierte cada token en un vector de números. Estos se llaman embeddings.

  4. Luego se multiplican estos embeddings por cientos de miles de millones de pesos del modelo.

  5. Al final de esta multiplicación, el vector de números representa la probabilidad del siguiente token más probable.



La tokenización no necesariamente significa dividir el texto en palabras; los tokens también pueden ser subconjuntos de palabras. Los embeddings están en el corazón de los modelos de lenguaje de gran tamaño (LLM), y los creamos a partir de tokens en el siguiente paso. Un embedding es una representación multidimensional de un token. Se entrena explícitamente algunos de modelos para permitir la captura de significados semánticos y relaciones entre palabras o frases. Por ejemplo, los embeddings de “perro” y “cachorro” están más juntos en varias dimensiones que “perro” y “computadora”. Esto ayuda a las máquinas a comprender el lenguaje humano de manera más eficiente.


Los pesos del modelo se utilizan para calcular una matriz de embedding ponderada, que se utiliza para predecir el siguiente token más probable. El muestreo de una predicción se realiza después de hacer miles de millones de multiplicaciones.


Una vez que el texto ha sido tokenizado y convertido en embeddings, el modelo utiliza una combinación de estos embeddings y pesos del modelo para predecir el siguiente token más probable en función del contexto proporcionado. Esta fase de inferencia es donde ChatGPT realmente brilla, utilizando su vasta base de datos y su sofisticado algoritmo para generar respuestas que se asemejan sorprendentemente a las de un ser humano.


El equipo de OpenAI enfatiza la importancia de comprender estos procesos para apreciar completamente la tecnología detrás de ChatGPT. Este análisis no solo ofrece una visión transparente de la complejidad del modelo, sino que también destaca su papel en la vanguardia de la inteligencia artificial y su potencial para transformar la forma en que interactuamos con la tecnología.


bottom of page