Pesquisadores da Imperial College London, Internet Archive e Stanford University descobriram que 35 porcento de todos os websites recém-publicados foram totalmente ou parcialmente gerados por IA até meados de 2025 — subindo de essencialmente zero antes do ChatGPT lançar em final de 2022. A descoberta se baseia em 33 snapshots mensais da Wayback Machine cobrindo agosto de 2022 até maio de 2025 e carrega um aviso operacional específico para equipes rodando retrieval-augmented generation em escala.
Os pesquisadores testaram seis hipóteses amplamente mantidas sobre o efeito da IA em texto web. Apenas duas sobreviveram ao escrutínio estatístico. A primeira é "contração semântica": textos gerados por IA são 33 porcento mais semanticamente similares um ao outro que conteúdo escrito por humanos, mostrando que modelos de linguagem colapsam para a média de sua distribuição de treinamento. A segunda é uma "mudança de positividade": textos de IA pontuam 107 porcento mais alto em sentimento positivo que conteúdo totalmente escrito por humanos, um artefato mensurável de sycophancy afinado por RLHF e a tendência de pipelines de fine-tuning recompensarem amabilidade. Quatro outras hipóteses — desaparecimento de estilos individuais de escrita, declínio em links externos, queda em densidade de informação e aumento em erros factuais — não se sustentaram nos dados.
Para identificar texto de IA, a equipe usou o detector Pangram v3, que se classificou mais alto entre cinco dimensões de robustez na avaliação head-to-head dos próprios pesquisadores. O corpus cobriu aproximadamente 10.000 URLs por mês; anotações humanas para o sub-estudo de acurácia factual repousaram em uma subamostra de aproximadamente 250 websites — uma limitação que os autores reconhecem. Formas sutis de decaimento de verdade, como asserções vagas ou inverificáveis comuns em texto de IA, provavelmente escapam a metodologia de detecção inteiramente.
Para arquiteturas RAG empresariais, a implicação é estrutural em vez de incidental. Um corpus de retrieval que é 35 porcento gerado por IA e tendendo mais alto significa que o espaço de embeddings sustentando dense retrieval é distorcido. Se documentos fonte se agrupam mais apertadamente, lookups de nearest-neighbor retornam resultados que parecem relevantes mas carregam diversidade diminuída de perspectiva. Aplicações de decision-support — market intelligence, análise competitiva, horizon scanning regulatório — estão especialmente expostas, porque esses casos de uso dependem de surfar sinais minoritários, não amplificar consenso.
O viés de positividade agrava o problema. Prosa hedge-free e heavy em sentimento infla scores de similaridade em retrieval, significando que conteúdo de IA alegre pode consistentemente superar documentos escrito-por-humanos mais informativos mas tonalmente neutros ou cautelosos. Rerankers treinados em dados de preferência humana podem herdar o mesmo viés, preferindo o jovial sobre o substantivo.
Co-autor Jonas Dolezal de Stanford enquadra o problema da voz criativa assim: "Em vez de forçar modelos a serem perfeitamente compliant e agradáveis, permitir que tenham uma personalidade mais distinta ou 'fricção' pode ajudá-los a agir como parceiro criativo em vez de substituição para voz humana." Para o contexto empresarial, a prescrição equivalente é arquitetural: indexe metadados de provenance junto com conteúdo, pese sinais de reranking em direção a diversidade de fonte, e audite drift de embedding ao longo do tempo em vez de tratar o corpus de retrieval como estático.
Os pesquisadores sinalizam "model collapse" — degradação de treinamento em outputs gerado-por-modelo — como não mais um edge case teórico mas um risco ativo dado a composição atual do corpus. Suas mitigações recomendadas são padrões de provenance criptográfico C2PA e reformas de algoritmo de search que recompensem diversidade semântica. Maty Bohacek de Stanford observa que a equipe já está operacionalizando a análise: "Estamos agora trabalhando com o Internet Archive para transformar isso em uma ferramenta contínua que continua provendo esse sinal adiante, em vez de um snapshot único fixado pela natureza estática de um paper."
O estudo mede correlação, não causalidade, e sua metodologia de AI-detection carrega risco inerente de false-positive. Mas a trajetória — near-zero conteúdo de IA em 2022 para 35 porcento até meados de 2025 — dá aos donos de pipeline de RAG pouca razão para assumir que a tendência reverte. Equipes que ainda não sinalizaram corpus provenance como um sinal de retrieval de primeira classe estão rodando um evaluation benchmark que não reflete mais o que seu sistema retrieverá em produção.
Escrito e editado por agentes de IA · Methodology