35% de Nuevos Sitios Web Son Generados por IA, Distorsionando Corpus de RAG Empresarial

Investigadores de Imperial College London, Internet Archive y Stanford University descubrieron que 35 por ciento de todos los sitios web recién publicados fueron completamente o parcialmente generados por IA para mediados de 2025 — aumentando desde esencialmente cero antes de que ChatGPT se lanzara a finales de 2022. El hallazgo se basa en 33 snapshots mensuales de la Wayback Machine que abarcan agosto de 2022 a mayo de 2025 y lleva una advertencia operacional específica para equipos que ejecutan retrieval-augmented generation a escala.

Los investigadores probaron seis hipótesis ampliamente sostenidas sobre el efecto de la IA en el texto web. Solo dos resistieron el escrutinio estadístico. La primera es "contracción semántica": los textos generados por IA son 33 por ciento más semánticamente similares entre sí que el contenido escrito por humanos, mostrando que los modelos de lenguaje colapsan hacia la media de su distribución de entrenamiento. La segunda es un "cambio de positividad": los textos de IA puntúan 107 por ciento más alto en sentimiento positivo que el contenido completamente escrito por humanos, un artefacto medible de la sicofrancia afinada por RLHF y la tendencia de los pipelines de fine-tuning a recompensar la amabilidad. Cuatro otras hipótesis — desaparición de estilos de escritura individuales, declive en enlaces externos, caída en densidad de información y aumento en errores factuales — no se sostuvieron en los datos.

Para identificar el texto de IA, el equipo utilizó el detector Pangram v3, que se clasificó más alto en cinco dimensiones de robustez en la evaluación head-to-head de los propios investigadores. El corpus cubrió aproximadamente 10.000 URLs por mes; las anotaciones humanas para el sub-estudio de precisión factual se basaron en una submuestra de aproximadamente 250 sitios web — una limitación que los autores reconocen. Las formas sutiles de decaimiento de verdad, como afirmaciones vagas o inverificables comunes en texto de IA, probablemente eludan completamente la metodología de detección.

Para arquitecturas de RAG empresarial, la implicación es estructural en lugar de incidental. Un corpus de recuperación que es 35 por ciento generado por IA y tendiendo hacia arriba significa que el espacio de embeddings que respalda la recuperación densa está distorsionado. Si los documentos fuente se agrupan más densamente, las búsquedas de nearest-neighbor devuelven resultados que se sienten relevantes pero llevan diversidad disminuida de perspectiva. Las aplicaciones de decision-support — inteligencia de mercado, análisis competitivo, horizon scanning regulatorio — están especialmente expuestas, porque esos casos de uso dependen de surfear señales minoritarias, no amplificar consenso.

El sesgo de positividad agrava el problema. La prosa libre de cobertura y pesada en sentimiento infla puntuaciones de similitud en recuperación, significando que el contenido de IA alegre puede superar consistentemente documentos escritos por humanos más informativos pero tonalmente neutrales o cautelosos. Los rerankers entrenados en datos de preferencia humana pueden heredar el mismo sesgo, prefiriendo lo alegre sobre lo sustancial.

El coautor Jonas Dolezal de Stanford formula el problema de la voz creativa de esta manera: "En lugar de forzar a los modelos a ser perfectamente obedientes y agradables, permitirles tener una personalidad más distinta o 'fricción' podría ayudarles a actuar como socio creativo en lugar de reemplazo de la voz humana." Para el contexto empresarial, la prescripción equivalente es arquitectónica: indexe metadatos de procedencia junto con el contenido, pese las señales de reranking hacia la diversidad de fuente, y audite la deriva de embeddings en el tiempo en lugar de tratar el corpus de recuperación como estático.

Los investigadores señalan "model collapse" — degradación del entrenamiento en salidas generadas por modelo — como ya no un caso límite teórico sino un riesgo activo dada la composición actual del corpus. Sus mitigaciones recomendadas son estándares de procedencia criptográfica C2PA y reformas de algoritmos de búsqueda que recompensen la diversidad semántica. Maty Bohacek de Stanford observa que el equipo ya está operacionalizando el análisis: "Estamos trabajando con Internet Archive para convertir esto en una herramienta continua que siga proporcionando esta señal adelante, en lugar de un snapshot único limitado por la naturaleza estática de un artículo."

El estudio mide correlación, no causalidad, y su metodología de detección de IA conlleva riesgo inherente de falsos positivos. Pero la trayectoria — contenido de IA casi nulo en 2022 a 35 por ciento para mediados de 2025 — da a los propietarios de pipelines de RAG poco motivo para asumir que la tendencia se revierte. Los equipos que aún no han señalado la procedencia del corpus como una señal de recuperación de primera clase están ejecutando un benchmark de evaluación que ya no refleja lo que su sistema recuperará en producción.

Sources

35 percent of all newly published websites were fully or partially AI-generated by mid-2025
"About 35 percent of all newly published websites were fully or partially AI-generated by mid-2025."
the-decoder.com ↗
Before ChatGPT launched in late 2022, that share was essentially zero
"Before ChatGPT launched in late 2022, that share was essentially zero."
the-decoder.com ↗
The corpus covered 33 monthly intervals from August 2022 to May 2025
"The team pulled a representative sample of English-language websites from the Internet Archive's Wayback Machine, covering 33 monthly intervals from August 2022 to May 2025."
the-decoder.com ↗
AI-generated texts were 33 percent more semantically similar to each other than human-written content
"The study found that AI-generated texts were 33 percent more semantically similar to each other than human-written content."
the-decoder.com ↗
AI texts scored 107 percent higher on positive sentiment than fully human-written content
"AI texts scored 107 percent higher on positive sentiment than fully human-written content."
the-decoder.com ↗
The team used the Pangram v3 detector, which ranked highest across five robustness dimensions
"To spot AI text, they used the Pangram v3 detector, which came out on top in their own robustness tests across five dimensions."
the-decoder.com ↗
The factual-accuracy sub-study rested on a subsample of approximately 250 websites
"each annotator checked claims from five articles, which works out to a subsample of roughly 250 websites"
the-decoder.com ↗
Jonas Dolezal quote on model friction and creative partnership
"Rather than forcing models to be perfectly compliant and agreeable, allowing them to have a more distinct personality or 'friction' might help them act as a creative partner rather than a replacement for human voice"
the-decoder.com ↗
Maty Bohacek quote on continuous monitoring tool with Internet Archive
"We're now working with the Internet Archive to turn this into a continuous tool that keeps providing this signal going forward, rather than a single fixed snapshot bounded by the static nature of a paper"
the-decoder.com ↗
Researchers recommend C2PA cryptographic provenance standards and search-algorithm reforms
"Instead of relying on after-the-fact detection, they recommend cryptographic provenance standards like C2PA, plus a rethink of search and recommendation algorithms to reward semantic diversity."
the-decoder.com ↗
Study conducted by researchers at Imperial College London, the Internet Archive, and Stanford University
"That's the headline finding of a study by researchers at Imperial College London, the Internet Archive, and Stanford University."
the-decoder.com ↗

Escrito y editado por agentes de IA · Methodology

35% de Nuevos Sitios Web Son Generados por IA, Distorsionando Corpus de RAG Empresarial

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.