¿Por qué los modelos de lenguaje aún alucinan?
- Redacción IT NOW
- 11 sept
- 3 Min. de lectura
Aunque GPT-5 ha reducido significativamente la frecuencia de respuestas inventadas, las “alucinaciones” siguen siendo uno de los desafíos más difíciles de erradicar en la inteligencia artificial. Un nuevo informe de OpenAI revela que la raíz del problema no está solo en los algoritmos, sino también en cómo se evalúan y entrenan los modelos.

OpenAI publicó un estudio sobre el fenómeno de las alucinaciones en modelos de lenguaje, entendidas como aquellas respuestas falsas pero plausibles que los sistemas generan con absoluta confianza. El informe sostiene que este problema no es un error aislado ni un “misterio” de la tecnología, sino el resultado de incentivos mal diseñados en los procesos de entrenamiento y evaluación. En otras palabras, los modelos actuales aprenden que es mejor arriesgar una respuesta —aunque sea errónea— que admitir su incertidumbre.
Incentivos equivocados y evaluaciones limitadas
Uno de los hallazgos más relevantes del estudio es que la mayoría de las evaluaciones priorizan únicamente la exactitud. Esta lógica, comparada con un examen de opción múltiple, favorece al “alumno” que adivina antes que al que deja la respuesta en blanco. En la práctica, un modelo que arriesga tiene más probabilidades de aparecer bien posicionado en los “scoreboards” que uno que se abstiene de contestar. El resultado es que los sistemas están entrenados para sonar convincentes incluso cuando no disponen de la información necesaria.
Los datos respaldan esta afirmación. En una comparación entre dos modelos de OpenAI, el gpt-5-thinking-mini y el o4-mini, se observó que el primero optó por abstenerse en el 52 % de las preguntas, mientras que el segundo casi nunca lo hizo (1 %). Aunque el o4-mini registró una tasa de precisión ligeramente superior (24 % frente al 22 % del gpt-5-thinking-mini), su tasa de error fue alarmantemente más alta: 75 % frente a 26 %. Esto demuestra que el énfasis exclusivo en la precisión puede ocultar un mayor nivel de respuestas inventadas.
Por qué aparecen las alucinaciones
El informe también analiza de dónde surgen estas inexactitudes tan específicas. Durante la etapa de preentrenamiento, los modelos aprenden a predecir la siguiente palabra en grandes volúmenes de texto, sin contar con etiquetas que distingan lo verdadero de lo falso. En dominios donde existen patrones claros —como ortografía o gramática— los errores tienden a desaparecer a medida que los modelos crecen. Pero en datos poco frecuentes o aleatorios, como una fecha de nacimiento, la predicción es inherentemente incierta y propensa a fallos.
De ahí que sea común que un modelo responda con seguridad, pero con información inventada, cuando se le pide un dato específico que no está disponible en su entrenamiento. En palabras simples, mientras la distribución estadística permite prever la próxima palabra en un texto fluido, no ofrece las herramientas suficientes para garantizar la veracidad de cada hecho puntual.
Rompiendo mitos sobre la fiabilidad de la IA
El informe también busca desmontar algunos malentendidos extendidos en torno a las alucinaciones. En primer lugar, aclara que nunca será posible alcanzar un 100 % de precisión, ya que existen preguntas que son intrínsecamente imposibles de responder de forma inequívoca. Además, rechaza la idea de que solo los modelos más grandes pueden evitar alucinar: en ocasiones, los sistemas pequeños, conscientes de sus limitaciones, pueden calibrarse mejor y responder simplemente “no lo sé”.
Otra conclusión importante es que las alucinaciones no son una falla misteriosa, sino un fenómeno estadístico comprensible. Aparecen porque los modelos son recompensados al adivinar, y porque la mayoría de los métodos de evaluación aún penalizan la humildad y premian la osadía. Finalmente, el documento advierte que no basta con diseñar pruebas especiales contra alucinaciones: mientras las métricas dominantes sigan siendo las tradicionales basadas en exactitud, el problema persistirá.
El camino hacia la “humildad algorítmica”
OpenAI propone una solución concreta: rediseñar las evaluaciones para que penalicen más los errores confiados que la incertidumbre, y otorguen incluso crédito parcial a respuestas que reconocen no saber. Este enfoque no es nuevo —algunos exámenes estandarizados aplican “marcación negativa” para desalentar las conjeturas—, pero la compañía insiste en que debe adoptarse de manera sistemática en toda la industria de IA.
La reducción de las alucinaciones no depende exclusivamente de entrenar modelos más potentes, sino de cambiar las reglas con las que se mide su desempeño. Al revalorizar la capacidad de reconocer límites y expresar incertidumbre, se abre paso a una nueva etapa en la confiabilidad de la inteligencia artificial: la de la humildad algorítmica, donde un “no sé” puede ser más valioso que una certeza inventada.




Comentarios