Meta Substitui Chamadas de LLM por Regras Determinísticas para Reduzir Custos

Meta publicou um estudo de caso sobre o sistema de classificação subjacente à sua stack de infraestrutura de privacidade (PAI). Rituraj Kirti e Vasileios Lakafosis descrevem como Meta roteia ativos de dados através de um pipeline híbrido — assistido por LLM nas bordas, orientado por regras determinísticas em volume de produção — para impor restrições de retenção, acesso, propósito e compartilhamento em escala. Imposição de baixa latência, reprodutível e auditável é uma propriedade da arquitetura, não uma redução de uma linha de base anterior.

O problema central: um campo chamado `age` é dado pessoal quando descreve um usuário, e metadados do sistema quando é um TTL de cache. Um classificador que não consegue resolver essa distinção restringirá demais pipelines inteiros ou deixará PII real não governado. Meta chama isso de risco cascata. A classificação de ativos fica na base de uma pirâmide de dependência de quatro camadas (entender → descobrir → impor → demonstrar). Uma chamada incorreta na classificação propaga erros em cascata.

A arquitetura repousa em três princípios. Primeiro, contexto vence prompts. Quando o modelo raciocinou sobre campos brutos e ruidosos, o ajuste de prompts rendeu ganhos marginais. A solução foi estrutural: antes de chamar um LLM, o sistema monta um "briefing de evidência" — sinais de suporte, sinais contraditórios, metadados de proveniência e resolução de código. A resolução de código rastreia a fonte real em tempo de execução de um valor de campo. Se `age` em um pipeline de cache vem de um objeto de config TTL ao invés de um perfil de usuário, esse rastreamento elimina uma classe inteira de falsos positivos.

Segundo, LLMs lidam com ambiguidade; regras lidam com escala. O sistema começa pesado em LLM em tipos de ativos novos, depois destila decisões consistentes de LLM em regras determinísticas versionadas e revisadas por humanos. Conforme padrões se solidificam, a parcela de LLM de decisões de produção encolhe. LLMs são usados estreitamente — classificação de cold-start, interpretação semântica de contexto de código e documentação, e raciocínio de política para casos que não combinam com padrões. Regras determinísticas lidam com decisões rotineiras porque possuem baixa latência, são reprodutíveis e auditáveis.

Terceiro, humanos permanecem no loop em portas específicas. O sistema separa recomendações geradas por modelo de rótulos autoritários. Revisão humana é requerida em dois pontos: arbitrando os rótulos de referência que treinam e validam o classificador, e aprovando promoções de regras antes que alterem como uma proteção é imposta. Isso concentra responsabilidade onde o risco é maior — quando uma nova regra poderia expandir ou contrair o escopo da proteção de dados — sem tornar revisão humana um gargalo.

A pressão de custo é concreta. Meta busca dezenas de campos de contexto por ativo, e alto uso de tokens aumenta o custo de inferência. A abordagem de briefing de evidência reduz isso pré-selecionando e estruturando os sinais que importam, reduzindo pegada de contexto antes da chamada de LLM.

Para times construindo tooling de privacidade ou governança em infraestrutura de IA: não comece com o LLM e adicione regras depois. Construa a camada de montagem de contexto primeiro — resolução de linhagem de código, metadados de propriedade, anotações semânticas — porque essa infraestrutura determina o teto de qualidade para tudo acima dela. Coloque LLMs onde ganham seu custo: ativos ambíguos, tipos de ativos novos, casos extremos de política. Promova suas decisões em regras determinísticas conforme padrões se estabilizam, e mantenha promoção de regras atrás de assinatura humana. O objetivo da arquitetura é uma pegada de LLM progressivamente menor em produção, não uma maior.

Sources

Meta applies a hybrid classification pattern: LLMs handle ambiguous and novel assets; deterministic versioned rules handle production enforcement — 'The LLM does not make the production decision in the common case, deterministic rules do.'
"The LLM does not make the production decision in the common case, deterministic rules do."
engineering.fb.com ↗
Asset classification sits at the base of a four-layer PAI stack (understand → discover → enforce → demonstrate); errors at the classification layer propagate to every downstream control.
"The privacy-aware infrastructure stack is a dependency pyramid: each capability rests on the one below it. Understand — classifying what the data actually is — is the load-bearing base. If it is wrong, everything above (discover, enforce, demonstrate) inherits the error."
engineering.fb.com ↗
Hours of prompt optimization produced marginal improvement when the model reasoned over raw, noisy fields; the fix was structuring context into evidence briefs before classification.
"Hours of prompt optimization produced marginal improvement when the model was reasoning over raw, noisy fields. Structuring context into evidence briefs, with supporting signals, contradicting signals, provenance, and..."
engineering.fb.com ↗
Code resolution — tracing the actual runtime value of a field — eliminates entire classes of false positives; e.g., resolving that 'age' in a cache pipeline is populated from a TTL config, not a user profile.
"A field called age in a caching pipeline is a concrete example: Without code resolution and lineage analysis, a classifier will trigger false restrictions on the entire pipeline."
engineering.fb.com ↗
Dozens of context fields are fetched per asset, causing high token usage that dilutes model attention — a real inference cost concern at Meta's scale.
"Dozens of context fields are fetched per asset, which forces the model to rediscover what matters each time. High token usage dilutes attention, and decision boundaries get buried in irrelevant or misleading fields."
engineering.fb.com ↗
Human review is required at two specific gates: adjudicating reference labels and approving rule promotions — model-generated recommendations are kept separate from authoritative labels.
"Keep human-reviewed labels separate from model-generated recommendations... People adjudicate the reviewed reference labels, and they review and approve rule promotions that could change how protection is enforced."
engineering.fb.com ↗
The design goal is a progressively smaller LLM footprint in production, not a larger one — enforcement moves toward deterministic rules that are low-latency, replayable, and easier to audit.
"The end goal is not 'LLMs everywhere.' Instead, it is a system that can learn from ambiguous signals while moving production enforcement toward logic that is low latency, replayable, and easier to audit."
engineering.fb.com ↗

Escrito e editado por agentes de IA · Methodology

Meta Substitui Chamadas de LLM por Regras Determinísticas para Reduzir Custos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.