Buenas respuestas, poca veracidad: las alucinaciones en los modelos de lenguaje
- Redacción IT NOW
- hace 6 horas
- 3 Min. de lectura
Un estudio pionero del proyecto Phare, desarrollado por Giskard en colaboración con Google DeepMind y la Unión Europea, revela que los modelos de lenguaje más populares no necesariamente ofrecen información verídica. La investigación evidencia cómo estos sistemas, diseñados para agradar al usuario, pueden generar respuestas falsas pero convincentes, con importantes implicaciones para su uso en entornos críticos.

En tiempos en los que los modelos de lenguaje (LLMs) se incorporan cada vez más a procesos empresariales, educativos y de atención al cliente, un nuevo estudio advierte sobre un riesgo clave: la generación de respuestas falsas, o "alucinaciones", por parte de estas herramientas. Un informe del proyecto Phare (Potential Harm Assessment & Risk Evaluation), una iniciativa impulsada por Giskard con el respaldo de Google DeepMind, la Unión Europea y Bpifrance, que evalúa a los principales LLMs en múltiples idiomas y dominios de seguridad.
Phare se centra en evaluar cuatro dimensiones críticas de los LLMs: alucinación, sesgo y equidad, contenido dañino y vulnerabilidad ante abusos como el "jailbreaking". En esta primera entrega, el foco está en la alucinación, definida como la generación de información que suena veraz, pero no lo es.
El equipo desarrolló una metodología estructurada con contenidos auténticos en inglés, español y francés, sometiendo a los modelos a pruebas de preguntas factualizadas, resistencia a la desinformación, capacidad de refutación y uso de herramientas externas bajo condiciones adversas.
Hallazgos clave: la popularidad no garantiza precisión
Uno de los descubrimientos más preocupantes es que los modelos mejor valorados por los usuarios no son necesariamente los más precisos. De hecho, muchos de ellos priorizan la satisfacción del usuario por sobre la veracidad, ofreciendo respuestas bien redactadas pero completamente falsas. “Optimizar para agradar al usuario puede comprometer la precisión factual”, advierte el informe.
Esto representa un gran desafío para usuarios sin conocimientos técnicos, quienes pueden ser fácilmente engañados por respuestas convincentes, aunque incorrectas.
El poder de la forma en que preguntamos
Otra revelación notable es que la manera en que se formula una pregunta impacta drásticamente en la probabilidad de que el modelo la conteste con información falsa o verdadera. Por ejemplo, una afirmación presentada con seguridad (“Estoy 100 % seguro de que…”) reduce hasta en un 15 % la capacidad de los modelos para refutarla, en comparación con una formulación neutral (“He oído que…”). Esta “obediencia” a la confianza del usuario, conocida como sycophancy, surge de entrenamientos que privilegian la alineación con las expectativas humanas.

Curiosamente, algunos modelos como los de Anthropic y las versiones más grandes de LLaMA de Meta demostraron una mayor resistencia a este efecto, lo que sugiere que el problema puede abordarse desde la fase de entrenamiento.
¿Breve o veraz? El dilema de las instrucciones
Una tercera conclusión crucial es que las instrucciones del sistema que promueven respuestas breves tienden a aumentar la alucinación. En los experimentos, al pedir a los modelos que fueran concisos (“responde brevemente”), su precisión cayó hasta un 20 %.
Esto se debe a que desmentir una afirmación falsa suele requerir una explicación más extensa. Al acotar la longitud, los modelos deben optar entre inventar una respuesta convincente o parecer poco útiles. El estudio sugiere que las organizaciones que priorizan salidas cortas para ahorrar costos o mejorar velocidad deberían reconsiderar esta práctica si buscan mantener la precisión.
Un llamado a la cautela y a la responsabilidad
El equipo detrás de Phare subraya que estas alucinaciones no son meros errores técnicos, sino riesgos reales que pueden tener consecuencias en ámbitos como la salud, las finanzas, la educación o la política. A medida que los LLMs se integran en decisiones críticas, comprender y mitigar estos fallos se vuelve esencial para una adopción responsable.
El estudio completo está disponible en phare.giskard.ai, y en las próximas semanas se publicarán nuevos análisis sobre sesgos, contenido dañino y seguridad general de los modelos. La comunidad investigadora está invitada a colaborar, aportar datos y poner a prueba sus propios sistemas con este riguroso estándar.