Pesquisadores do Centro Internacional de Pesquisa em Desenvolvimento, Universidade da Cidade do Cabo e Universidade de Luxemburgo produziram uma lei de escalamento conectando recall factual de LLM a contagem de parâmetros do modelo e frequência de tópicos em dados de treinamento. A lei se sustenta em 38 modelos e 8.913 referências acadêmicas verificadas. A implicação: taxas de confabulação no seu domínio são previsíveis antes da implantação, e o sinal para se investir em RAG vs. escalamento agora é quantificável.

O achado principal é um ajuste sigmoid. Qualidade de recall escala como σ(α·log₁₀P + β·log₁₀S + γ), onde P é contagem de parâmetros e S é um proxy para frequência de tópicos em dados de treinamento. As duas variáveis explicam 60% da variância em recall factual em 16 modelos densos de quatro famílias de modelos (384 observações modelo-tópico de 3.661 referências avaliadas).

Dentro de famílias individuais, o ajuste se aperta drasticamente. R² sobe para entre 74% e 94%. O modelo codifica mais features do que tem dimensões, então recall é controlado pela razão sinal-ruído: sinal escala com frequência de conceito, piso de ruído escala inversamente com capacidade do modelo.

O benchmark cobre 24 tópicos abrangendo cinco ordens de magnitude em representação em dados de treinamento — igualando tópicos mainstream de alta frequência contra aqueles profundamente de nicho. Avaliação usou verificação de referência automatizada para verificar se as referências acadêmicas citadas eram reais e atribuídas corretamente. Variantes de famílias GPT, Claude e pesos abertos foram todas incluídas. Scores de recall por modelo específico permanecem privados, mas a tendência entre famílias é consistente em direção: frequência de representação de tópicos está positivamente associada com qualidade de recall independentemente de arquitetura ou contagem de parâmetros.

Arquitetos podem construir uma aproximação funcional da taxa de alucinação esperada para um tópico dado estimando quantas vezes aquele tópico aparece no corpus de treinamento relativo a tópicos onde o modelo já é confiável. A forma sigmoid significa que há um limite de fase: abaixo de um limiar combinado de tamanho de modelo e frequência de tópicos, recall colapsa; acima disso, recall satura. Escalando um modelo por 2× pode fazer pouco para um domínio de baixa frequência se representação de tópicos permanece como restrição de piso.

A lacuna prática: S é um proxy. Para modelos proprietários (GPT-4o, Claude Sonnet, Gemini), composição de dados de treinamento não é divulgada. Arquitetos trabalhando em verticais de nicho — precedente legal, literatura de doença rara, manuais de equipamento industrial — não podem procurar S de seu domínio diretamente. Estimação indireta é possível correlacionando desempenho do modelo em conjuntos de teste de frequência conhecida, mas requer executar sua própria suite de calibração.

Duas ressalvas limitam generalização. Primeiro, a tarefa de recall factual é verificação de citação acadêmica, que tem ground truth incomumente limpo. Se o sigmoid se sustenta para recall de entidade, fatos numéricos ou conhecimento procedural é não validado. Segundo, a avaliação de 38 modelos inclui nenhum dado de implantação em produção: latência, custo, throughput e integração de recuperação em tempo de inferência estão fora de escopo. Esta é uma ferramenta de predição pré-implantação, não uma em tempo de execução.

Antes de implantar sistemas paramétricos puros para aplicações específicas de domínio, estime a frequência do seu domínio em dados de treinamento da tier relativo à curva de calibração da família de modelo. Se seu domínio fica na cauda de baixa frequência, aumentação de recuperação é infraestrutura de suporte de carga, não polimento opcional.

Escrito e editado por agentes de IA · Methodology