top of page

Fuentes y algoritmos: cómo las plataformas de IA deciden qué información citar

¿Wikipedia, Reddit o YouTube? En un momento donde la IA se consolida como intermediaria entre los usuarios y la información, los patrones de citación no son solo un detalle técnico, sino una expresión de cómo se construye y valida el conocimiento dentro de cada sistema.


ree

En un entorno donde la inteligencia artificial se posiciona como una herramienta clave para el acceso a la información, entender cómo los modelos seleccionan y citan sus fuentes revela tanto sus capacidades como sus limitaciones. Según un análisis publicado por Try Profound, que examinó 30 millones de citas generadas por ChatGPT, Google AI Overviews y Perplexity entre agosto de 2024 y junio de 2025, cada plataforma sigue un patrón distintivo en la manera en que estructura su acceso y referencia a la información.


ree

ChatGPT, de OpenAI, demuestra una marcada preferencia por Wikipedia, que representa el 47,9% de sus citas. Este comportamiento técnico sugiere una arquitectura de recuperación que prioriza fuentes de conocimiento centralizadas y altamente estructuradas. El sistema parece diseñarse sobre pipelines donde Wikipedia funciona como un corpus núcleo, facilitando la extracción rápida y confiable de datos enciclopédicos. En términos de diseño, esta decisión reduce la necesidad de filtrar ruido o contenido contradictorio, pero también limita la diversidad de perspectivas.


ree

Por contraste, Google AI Overviews adopta un enfoque disperso que depende de contenido generado por usuarios. Casi una quinta parte de sus citas provienen de Reddit (21%), seguido de YouTube (18,8%), Quora (14,3%) y LinkedIn (13%). Este patrón implica una infraestructura de recuperación más compleja, capaz de navegar múltiples formatos, desde texto informal hasta video y contenido profesional. Para lograrlo, el sistema debe operar con técnicas avanzadas de búsqueda semántica, análisis de contexto y priorización por reputación, además de integrar herramientas para el procesamiento multimodal —en el caso de YouTube, por ejemplo, reconocimiento de voz y transcripción automática.


ree

Perplexity adopta una estrategia intermedia, con una fuerte inclinación hacia fuentes comunitarias. Reddit representa el 46,7% de sus citas, seguido por plataformas como Yelp, TripAdvisor y G2. Este tipo de arquitectura requiere mecanismos técnicos orientados a la clasificación de opiniones, el filtrado de subjetividad y la verificación cruzada de afirmaciones. En términos de recuperación de información, también exige mayor sensibilidad al lenguaje natural no estructurado, además de protocolos para detectar sesgos o inconsistencias.


Más allá de las fuentes específicas, los dominios también ofrecen pistas sobre la lógica detrás de cada plataforma. En el caso de ChatGPT, el 80,4% de sus citas provienen de sitios .com, mientras que el 10,8% corresponden a dominios .org. Esto sugiere una tendencia hacia recursos institucionales y comerciales, lo cual se alinea con un modelo de entrenamiento más tradicional. En Google y Perplexity, en cambio, se observa una dispersión más amplia que incluye dominios sociales y comunitarios, lo que obliga a sus sistemas a operar con capas adicionales de análisis para validar confiabilidad y actualidad.


Desde el punto de vista técnico, las diferencias entre plataformas reflejan decisiones estratégicas sobre qué corpus utilizar, cómo estructurar los modelos de recuperación y qué métodos emplear para evaluar la calidad de las fuentes. Mientras algunos priorizan velocidad y consistencia, otros se orientan hacia diversidad y actualización constante. En todos los casos, la infraestructura tecnológica que permite estas operaciones, incluyendo redes de recuperación aumentada por generación (RAG), algoritmos de ranking, filtros de ruido y motores de síntesis contextual, representa el núcleo invisible detrás de cada respuesta generada.


El estudio revela que, en un momento donde la IA se consolida como intermediaria entre los usuarios y la información, los patrones de citación no son simplemente un detalle técnico, sino una expresión directa de cómo se construye y valida el conocimiento dentro de cada sistema.


Comments


itnow-03.png

© Derechos reservados

Connecta B2B - 2025

Políticas de privacidad

ACERCA DE NOSOTROS

IT NOW es un espacio multiplataforma y un núcleo para conectar negocios que se compone de varios elementos: su sitio web con noticias de TI relevantes en la región, un newsletter semanal, su multiplataforma de redes sociales, por último, sus eventos enfocados en las verticales de TI y en donde destaca el aclamado Tech Day, la gira de actualización tecnológica más importante de la región.

24 / 7 Actualizaciones en nuestras Redes Sociales
  • Facebook
  • Instagram
  • LinkedIn
  • YouTube
  • X
  • RSS
bottom of page