¿Dónde quedó el internet real? Así se intenta salvar el contenido anterior a la llegada de la IA
- Malka Mekler
- hace 5 días
- 3 Min. de lectura
Desde 2022, la web se llena de textos sintéticos difíciles de detectar. Algunos desarrolladores comparan este fenómeno con la contaminación nuclear del acero.

Desde el lanzamiento de ChatGPT en 2022, internet ha comenzado a llenarse de contenido generado por inteligencia artificial: textos producidos por modelos, no por personas. Blogs, foros, redes sociales y hasta respuestas en buscadores reflejan cada vez menos el pensamiento humano original. Según reporta Business Insider, esta transformación desata una nueva preocupación técnica entre investigadores y desarrolladores, la contaminación de los datos de entrenamiento con textos sintéticos, un fenómeno que podría poner en riesgo el futuro mismo del aprendizaje automático.
En inteligencia artificial, los modelos aprenden a partir de grandes volúmenes de datos. Históricamente, esos datos eran escritos por humanos, desordenados, contradictorios, auténticos. Pero si los modelos actuales aprenden de contenido creado por modelos anteriores, que a su vez se entrenaron con más contenido sintético, se genera un bucle que debilita la calidad de los resultados. A este fenómeno se le conoce como model collapse, una forma de “fotocopiar la fotocopia”, donde cada versión pierde nitidez, originalidad y contexto.
Will Allen, vicepresidente de Cloudflare, alerta sobre la importancia de conservar datos reales, previos a la proliferación de contenido generado por IA. “Los datos con conexión a la realidad siempre han sido críticos, y serán aún más cruciales en el futuro”, afirmó. En sectores sensibles como medicina, derecho o ciencia, entrenar modelos con información falsa, imprecisa o no verificada podría tener consecuencias técnicas graves.
Algunos expertos ya comenzaron a notar el cambio. El inversionista Paul Graham contó que al buscar en línea la temperatura ideal para hornear pizza, solo confiaba en resultados previos a 2022 para evitar “contenido generado por IA optimizado para SEO”. El CTO de Vercel, Malte Ubl, comparó esta práctica con buscar low-background steel, el acero producido antes de las pruebas nucleares de 1945, libre de contaminación radioactiva, ahora codiciado por su pureza. El paralelismo es claro: así como los físicos necesitan acero inalterado para fabricar detectores precisos, los científicos de datos necesitan texto no contaminado para entrenar modelos confiables.
Frente a esta preocupación, algunos ingenieros comienzan a preservar “copias puras” del internet. John Graham-Cumming, CTO de Cloudflare, lidera el proyecto LowBackgroundSteel.ai, que cataloga datasets y sitios web generados antes del auge de la IA generativa. Entre ellos se encuentra el Arctic Code Vault de GitHub, una bóveda de código fuente sepultada en una mina de carbón en Noruega, capturada en febrero de 2020. Otro caso es el proyecto wordfreq, mantenido por la lingüista Robyn Speer, que dejó de actualizarse en 2021. “La IA generativa ha contaminado los datos”, escribió en GitHub. Como ejemplo, mencionó que ChatGPT usa obsesivamente palabras como “delve”, alterando la frecuencia natural del lenguaje humano.
Aunque herramientas como ChatGPT pueden ser útiles y aumentan la productividad, los ingenieros coinciden en que es fundamental mantener una base de datos real, auténtica y no generada por máquinas. De lo contrario, la IA podría perder su anclaje con la realidad. Como concluye Allen, “siempre querrás estar conectado a algún nivel de verdad”.
El internet, tal como lo conocíamos, ya no existe. Pero mientras algunos se dedican a archivar su versión más pura, queda una lección técnica: sin datos genuinos, el progreso de la inteligencia artificial se tambalea.
コメント