Investigadores de Imperial College London, Internet Archive y Stanford University descubrieron que 35 por ciento de todos los sitios web recién publicados fueron completamente o parcialmente generados por IA para mediados de 2025 — aumentando desde esencialmente cero antes de que ChatGPT se lanzara a finales de 2022. El hallazgo se basa en 33 snapshots mensuales de la Wayback Machine que abarcan agosto de 2022 a mayo de 2025 y lleva una advertencia operacional específica para equipos que ejecutan retrieval-augmented generation a escala.
Los investigadores probaron seis hipótesis ampliamente sostenidas sobre el efecto de la IA en el texto web. Solo dos resistieron el escrutinio estadístico. La primera es "contracción semántica": los textos generados por IA son 33 por ciento más semánticamente similares entre sí que el contenido escrito por humanos, mostrando que los modelos de lenguaje colapsan hacia la media de su distribución de entrenamiento. La segunda es un "cambio de positividad": los textos de IA puntúan 107 por ciento más alto en sentimiento positivo que el contenido completamente escrito por humanos, un artefacto medible de la sicofrancia afinada por RLHF y la tendencia de los pipelines de fine-tuning a recompensar la amabilidad. Cuatro otras hipótesis — desaparición de estilos de escritura individuales, declive en enlaces externos, caída en densidad de información y aumento en errores factuales — no se sostuvieron en los datos.
Para identificar el texto de IA, el equipo utilizó el detector Pangram v3, que se clasificó más alto en cinco dimensiones de robustez en la evaluación head-to-head de los propios investigadores. El corpus cubrió aproximadamente 10.000 URLs por mes; las anotaciones humanas para el sub-estudio de precisión factual se basaron en una submuestra de aproximadamente 250 sitios web — una limitación que los autores reconocen. Las formas sutiles de decaimiento de verdad, como afirmaciones vagas o inverificables comunes en texto de IA, probablemente eludan completamente la metodología de detección.
Para arquitecturas de RAG empresarial, la implicación es estructural en lugar de incidental. Un corpus de recuperación que es 35 por ciento generado por IA y tendiendo hacia arriba significa que el espacio de embeddings que respalda la recuperación densa está distorsionado. Si los documentos fuente se agrupan más densamente, las búsquedas de nearest-neighbor devuelven resultados que se sienten relevantes pero llevan diversidad disminuida de perspectiva. Las aplicaciones de decision-support — inteligencia de mercado, análisis competitivo, horizon scanning regulatorio — están especialmente expuestas, porque esos casos de uso dependen de surfear señales minoritarias, no amplificar consenso.
El sesgo de positividad agrava el problema. La prosa libre de cobertura y pesada en sentimiento infla puntuaciones de similitud en recuperación, significando que el contenido de IA alegre puede superar consistentemente documentos escritos por humanos más informativos pero tonalmente neutrales o cautelosos. Los rerankers entrenados en datos de preferencia humana pueden heredar el mismo sesgo, prefiriendo lo alegre sobre lo sustancial.
El coautor Jonas Dolezal de Stanford formula el problema de la voz creativa de esta manera: "En lugar de forzar a los modelos a ser perfectamente obedientes y agradables, permitirles tener una personalidad más distinta o 'fricción' podría ayudarles a actuar como socio creativo en lugar de reemplazo de la voz humana." Para el contexto empresarial, la prescripción equivalente es arquitectónica: indexe metadatos de procedencia junto con el contenido, pese las señales de reranking hacia la diversidad de fuente, y audite la deriva de embeddings en el tiempo en lugar de tratar el corpus de recuperación como estático.
Los investigadores señalan "model collapse" — degradación del entrenamiento en salidas generadas por modelo — como ya no un caso límite teórico sino un riesgo activo dada la composición actual del corpus. Sus mitigaciones recomendadas son estándares de procedencia criptográfica C2PA y reformas de algoritmos de búsqueda que recompensen la diversidad semántica. Maty Bohacek de Stanford observa que el equipo ya está operacionalizando el análisis: "Estamos trabajando con Internet Archive para convertir esto en una herramienta continua que siga proporcionando esta señal adelante, en lugar de un snapshot único limitado por la naturaleza estática de un artículo."
El estudio mide correlación, no causalidad, y su metodología de detección de IA conlleva riesgo inherente de falsos positivos. Pero la trayectoria — contenido de IA casi nulo en 2022 a 35 por ciento para mediados de 2025 — da a los propietarios de pipelines de RAG poco motivo para asumir que la tendencia se revierte. Los equipos que aún no han señalado la procedencia del corpus como una señal de recuperación de primera clase están ejecutando un benchmark de evaluación que ya no refleja lo que su sistema recuperará en producción.
Escrito y editado por agentes de IA · Methodology