Pesquisadores Mapeiam Taxas de Alucinação por Tamanho de Modelo e Frequência de Dados

Estudo em 38 modelos + 8.900 referências acadêmicas encontra uma lei de escalamento sigmoid conectando lembrança factual a contagem de parâmetros e frequência de tópicos em dados de treinamento—explica 60% da variância entre 16 modelos densos. Ângulo para arquitetos: use isso para prever taxas de alucinação em casos de uso específicos de domínio; adeque os harnesses de recuperação/verificação com base em quais tópicos seu modelo confabulará.

Pesquisadores do Centro Internacional de Pesquisa em Desenvolvimento, Universidade da Cidade do Cabo e Universidade de Luxemburgo produziram uma lei de escalamento conectando recall factual de LLM a contagem de parâmetros do modelo e frequência de tópicos em dados de treinamento. A lei se sustenta em 38 modelos e 8.913 referências acadêmicas verificadas. A implicação: taxas de confabulação no seu domínio são previsíveis antes da implantação, e o sinal para se investir em RAG vs. escalamento agora é quantificável.

O achado principal é um ajuste sigmoid. Qualidade de recall escala como σ(α·log₁₀P + β·log₁₀S + γ), onde P é contagem de parâmetros e S é um proxy para frequência de tópicos em dados de treinamento. As duas variáveis explicam 60% da variância em recall factual em 16 modelos densos de quatro famílias de modelos (384 observações modelo-tópico de 3.661 referências avaliadas).

Dentro de famílias individuais, o ajuste se aperta drasticamente. R² sobe para entre 74% e 94%. O modelo codifica mais features do que tem dimensões, então recall é controlado pela razão sinal-ruído: sinal escala com frequência de conceito, piso de ruído escala inversamente com capacidade do modelo.

O benchmark cobre 24 tópicos abrangendo cinco ordens de magnitude em representação em dados de treinamento — igualando tópicos mainstream de alta frequência contra aqueles profundamente de nicho. Avaliação usou verificação de referência automatizada para verificar se as referências acadêmicas citadas eram reais e atribuídas corretamente. Variantes de famílias GPT, Claude e pesos abertos foram todas incluídas. Scores de recall por modelo específico permanecem privados, mas a tendência entre famílias é consistente em direção: frequência de representação de tópicos está positivamente associada com qualidade de recall independentemente de arquitetura ou contagem de parâmetros.

Arquitetos podem construir uma aproximação funcional da taxa de alucinação esperada para um tópico dado estimando quantas vezes aquele tópico aparece no corpus de treinamento relativo a tópicos onde o modelo já é confiável. A forma sigmoid significa que há um limite de fase: abaixo de um limiar combinado de tamanho de modelo e frequência de tópicos, recall colapsa; acima disso, recall satura. Escalando um modelo por 2× pode fazer pouco para um domínio de baixa frequência se representação de tópicos permanece como restrição de piso.

A lacuna prática: S é um proxy. Para modelos proprietários (GPT-4o, Claude Sonnet, Gemini), composição de dados de treinamento não é divulgada. Arquitetos trabalhando em verticais de nicho — precedente legal, literatura de doença rara, manuais de equipamento industrial — não podem procurar S de seu domínio diretamente. Estimação indireta é possível correlacionando desempenho do modelo em conjuntos de teste de frequência conhecida, mas requer executar sua própria suite de calibração.

Duas ressalvas limitam generalização. Primeiro, a tarefa de recall factual é verificação de citação acadêmica, que tem ground truth incomumente limpo. Se o sigmoid se sustenta para recall de entidade, fatos numéricos ou conhecimento procedural é não validado. Segundo, a avaliação de 38 modelos inclui nenhum dado de implantação em produção: latência, custo, throughput e integração de recuperação em tempo de inferência estão fora de escopo. Esta é uma ferramenta de predição pré-implantação, não uma em tempo de execução.

Antes de implantar sistemas paramétricos puros para aplicações específicas de domínio, estime a frequência do seu domínio em dados de treinamento da tier relativo à curva de calibração da família de modelo. Se seu domínio fica na cauda de baixa frequência, aumentação de recuperação é infraestrutura de suporte de carga, não polimento opcional.

Sources

Recall quality follows a sigmoid in the log-linear combination of model parameter count and topic representation in training data: quality = σ(α·log₁₀P + β·log₁₀S + γ)
"Recall quality follows a sigmoid in the log-linear combination of model parameter count and topic representation in training data."
arxiv.org ↗
The two variables explain 60% of variance across 16 dense models from four families (N=384 model-topic observations from 3,661 evaluated references)
"Fitted to 16 dense models across 24 topics (N=384 model–topic observations from 3,661 evaluated references; R²=0.599)"
arxiv.org ↗
Within individual model families the R² rises to 74–94%
"rising to 74–94% within individual families"
arxiv.org ↗
The study evaluated 38 models on 8,913 scholarly references across 24 topics spanning five orders of magnitude in training-data representation
"We evaluated 38 models on over 8,900 scholarly references evaluated by an automated reference verification system."
arxiv.org ↗
Topic representation frequency is positively associated with recall quality independently of architecture or parameter count
"Across all 38 models and 8,913 evaluated scholarly references, topic representation frequency is positively associated with recall quality independently of architecture or parameter count."
arxiv.org ↗
The theoretical framing is a superposition-inspired signal-to-noise ratio where signal scales with concept frequency and the noise floor scales with model capacity
"recall is gated by a signal-to-noise ratio: signal strength scales with concept frequency and the noise floor with model capacity"
arxiv.org ↗
Both GPT-family and Claude-family models were included alongside open-weights variants
"Covers 38 diverse models (GPT, Claude, open-weights), so the sigmoid holds across families."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Pesquisadores Mapeiam Taxas de Alucinação por Tamanho de Modelo e Frequência de Dados

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.