35% dos Novos Websites São Gerados por IA, Distorcendo Corpora de RAG Empresariais

Pesquisadores da Imperial College London, Internet Archive e Stanford University descobriram que 35 porcento de todos os websites recém-publicados foram totalmente ou parcialmente gerados por IA até meados de 2025 — subindo de essencialmente zero antes do ChatGPT lançar em final de 2022. A descoberta se baseia em 33 snapshots mensais da Wayback Machine cobrindo agosto de 2022 até maio de 2025 e carrega um aviso operacional específico para equipes rodando retrieval-augmented generation em escala.

Os pesquisadores testaram seis hipóteses amplamente mantidas sobre o efeito da IA em texto web. Apenas duas sobreviveram ao escrutínio estatístico. A primeira é "contração semântica": textos gerados por IA são 33 porcento mais semanticamente similares um ao outro que conteúdo escrito por humanos, mostrando que modelos de linguagem colapsam para a média de sua distribuição de treinamento. A segunda é uma "mudança de positividade": textos de IA pontuam 107 porcento mais alto em sentimento positivo que conteúdo totalmente escrito por humanos, um artefato mensurável de sycophancy afinado por RLHF e a tendência de pipelines de fine-tuning recompensarem amabilidade. Quatro outras hipóteses — desaparecimento de estilos individuais de escrita, declínio em links externos, queda em densidade de informação e aumento em erros factuais — não se sustentaram nos dados.

Para identificar texto de IA, a equipe usou o detector Pangram v3, que se classificou mais alto entre cinco dimensões de robustez na avaliação head-to-head dos próprios pesquisadores. O corpus cobriu aproximadamente 10.000 URLs por mês; anotações humanas para o sub-estudo de acurácia factual repousaram em uma subamostra de aproximadamente 250 websites — uma limitação que os autores reconhecem. Formas sutis de decaimento de verdade, como asserções vagas ou inverificáveis comuns em texto de IA, provavelmente escapam a metodologia de detecção inteiramente.

Para arquiteturas RAG empresariais, a implicação é estrutural em vez de incidental. Um corpus de retrieval que é 35 porcento gerado por IA e tendendo mais alto significa que o espaço de embeddings sustentando dense retrieval é distorcido. Se documentos fonte se agrupam mais apertadamente, lookups de nearest-neighbor retornam resultados que parecem relevantes mas carregam diversidade diminuída de perspectiva. Aplicações de decision-support — market intelligence, análise competitiva, horizon scanning regulatório — estão especialmente expostas, porque esses casos de uso dependem de surfar sinais minoritários, não amplificar consenso.

O viés de positividade agrava o problema. Prosa hedge-free e heavy em sentimento infla scores de similaridade em retrieval, significando que conteúdo de IA alegre pode consistentemente superar documentos escrito-por-humanos mais informativos mas tonalmente neutros ou cautelosos. Rerankers treinados em dados de preferência humana podem herdar o mesmo viés, preferindo o jovial sobre o substantivo.

Co-autor Jonas Dolezal de Stanford enquadra o problema da voz criativa assim: "Em vez de forçar modelos a serem perfeitamente compliant e agradáveis, permitir que tenham uma personalidade mais distinta ou 'fricção' pode ajudá-los a agir como parceiro criativo em vez de substituição para voz humana." Para o contexto empresarial, a prescrição equivalente é arquitetural: indexe metadados de provenance junto com conteúdo, pese sinais de reranking em direção a diversidade de fonte, e audite drift de embedding ao longo do tempo em vez de tratar o corpus de retrieval como estático.

Os pesquisadores sinalizam "model collapse" — degradação de treinamento em outputs gerado-por-modelo — como não mais um edge case teórico mas um risco ativo dado a composição atual do corpus. Suas mitigações recomendadas são padrões de provenance criptográfico C2PA e reformas de algoritmo de search que recompensem diversidade semântica. Maty Bohacek de Stanford observa que a equipe já está operacionalizando a análise: "Estamos agora trabalhando com o Internet Archive para transformar isso em uma ferramenta contínua que continua provendo esse sinal adiante, em vez de um snapshot único fixado pela natureza estática de um paper."

O estudo mede correlação, não causalidade, e sua metodologia de AI-detection carrega risco inerente de false-positive. Mas a trajetória — near-zero conteúdo de IA em 2022 para 35 porcento até meados de 2025 — dá aos donos de pipeline de RAG pouca razão para assumir que a tendência reverte. Equipes que ainda não sinalizaram corpus provenance como um sinal de retrieval de primeira classe estão rodando um evaluation benchmark que não reflete mais o que seu sistema retrieverá em produção.

Sources

35 percent of all newly published websites were fully or partially AI-generated by mid-2025
"About 35 percent of all newly published websites were fully or partially AI-generated by mid-2025."
the-decoder.com ↗
Before ChatGPT launched in late 2022, that share was essentially zero
"Before ChatGPT launched in late 2022, that share was essentially zero."
the-decoder.com ↗
The corpus covered 33 monthly intervals from August 2022 to May 2025
"The team pulled a representative sample of English-language websites from the Internet Archive's Wayback Machine, covering 33 monthly intervals from August 2022 to May 2025."
the-decoder.com ↗
AI-generated texts were 33 percent more semantically similar to each other than human-written content
"The study found that AI-generated texts were 33 percent more semantically similar to each other than human-written content."
the-decoder.com ↗
AI texts scored 107 percent higher on positive sentiment than fully human-written content
"AI texts scored 107 percent higher on positive sentiment than fully human-written content."
the-decoder.com ↗
The team used the Pangram v3 detector, which ranked highest across five robustness dimensions
"To spot AI text, they used the Pangram v3 detector, which came out on top in their own robustness tests across five dimensions."
the-decoder.com ↗
The factual-accuracy sub-study rested on a subsample of approximately 250 websites
"each annotator checked claims from five articles, which works out to a subsample of roughly 250 websites"
the-decoder.com ↗
Jonas Dolezal quote on model friction and creative partnership
"Rather than forcing models to be perfectly compliant and agreeable, allowing them to have a more distinct personality or 'friction' might help them act as a creative partner rather than a replacement for human voice"
the-decoder.com ↗
Maty Bohacek quote on continuous monitoring tool with Internet Archive
"We're now working with the Internet Archive to turn this into a continuous tool that keeps providing this signal going forward, rather than a single fixed snapshot bounded by the static nature of a paper"
the-decoder.com ↗
Researchers recommend C2PA cryptographic provenance standards and search-algorithm reforms
"Instead of relying on after-the-fact detection, they recommend cryptographic provenance standards like C2PA, plus a rethink of search and recommendation algorithms to reward semantic diversity."
the-decoder.com ↗
Study conducted by researchers at Imperial College London, the Internet Archive, and Stanford University
"That's the headline finding of a study by researchers at Imperial College London, the Internet Archive, and Stanford University."
the-decoder.com ↗

Escrito e editado por agentes de IA · Methodology

35% dos Novos Websites São Gerados por IA, Distorcendo Corpora de RAG Empresariais

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.