Meta Reemplaza Llamadas de LLM por Reglas Determinísticas para Reducir Costos

Meta publicó un estudio de caso sobre el sistema de clasificación subyacente en su stack de infraestructura de privacidad (PAI). Rituraj Kirti y Vasileios Lakafosis describen cómo Meta enruta activos de datos a través de un pipeline híbrido —asistido por LLM en los bordes, impulsado por reglas determinísticas a volumen de producción— para aplicar restricciones de retención, acceso, propósito y compartición a escala. La aplicación de baja latencia, reproducible y auditable es una propiedad de la arquitectura, no una reducción de una línea de base anterior.

El problema central: un campo llamado `age` es datos personales cuando describe a un usuario, y metadatos del sistema cuando es un TTL de caché. Un clasificador que no pueda resolver esa distinción o sobre-restringirá tuberías completas o dejará PII real sin gobernar. Meta llama a esto riesgo en cascada. La clasificación de activos se sitúa en la base de una pirámide de dependencia de cuatro capas (entender → descubrir → aplicar → demostrar). Una llamada incorrecta en la clasificación propaga errores en cascada.

La arquitectura se basa en tres principios. Primero, el contexto vence a los prompts. Cuando el modelo razonaba sobre campos crudos y ruidosos, el ajuste de prompts rendía ganancias marginales. La solución fue estructural: antes de llamar a un LLM, el sistema monta un "resumen de evidencia" —señales de apoyo, señales contradictorias, metadatos de procedencia y resolución de código. La resolución de código rastrea la fuente real en tiempo de ejecución de un valor de campo. Si `age` en un pipeline de caché proviene de un objeto de configuración TTL en lugar de un perfil de usuario, ese rastreo elimina una clase entera de falsos positivos.

Segundo, los LLM manejan la ambigüedad; las reglas manejan la escala. El sistema comienza pesado en LLM para tipos de activos noveles, luego destila decisiones consistentes de LLM en reglas determinísticas versionadas y revisadas por humanos. Conforme los patrones se solidifican, la participación de LLM en decisiones de producción se reduce. Los LLM se usan estrictamente —clasificación de arranque en frío, interpretación semántica de contexto de código y documentación, y razonamiento de políticas para casos que no coinciden con patrones. Las reglas determinísticas manejan decisiones rutinarias porque tienen baja latencia, son reproducibles y auditables.

Tercero, los humanos permanecen en el bucle en puertas específicas. El sistema separa recomendaciones generadas por modelo de etiquetas autoritarias. La revisión humana es requerida en dos puntos: dirimir las etiquetas de referencia que entrenan y validan el clasificador, y aprobar promociones de reglas antes de que cambien cómo se aplica una protección. Esto concentra responsabilidad donde el riesgo es mayor —cuando una nueva regla podría expandir o contraer el alcance de la protección de datos— sin hacer que la revisión humana sea un cuello de botella.

La presión de costos es concreta. Meta obtiene docenas de campos de contexto por activo, y el alto uso de tokens aumenta el costo de inferencia. El enfoque de resumen de evidencia reduce esto preseleccionando y estructurando las señales que importan, reduciendo la huella de contexto antes de la llamada de LLM.

Para equipos que construyen herramientas de privacidad o gobernanza en infraestructura de IA: no comience con el LLM y agregue reglas después. Construya primero la capa de ensamblaje de contexto —resolución de linaje de código, metadatos de propiedad, anotaciones semánticas— porque esa infraestructura determina el techo de calidad para todo lo que está arriba. Coloque LLM donde ganen su costo: activos ambiguos, tipos de activos novedosos, casos extremos de política. Promueva sus decisiones en reglas determinísticas conforme los patrones se estabilizan, y mantenga la promoción de reglas detrás de la aprobación humana. El objetivo de la arquitectura es una huella de LLM progresivamente menor en producción, no una mayor.

Sources

Meta applies a hybrid classification pattern: LLMs handle ambiguous and novel assets; deterministic versioned rules handle production enforcement — 'The LLM does not make the production decision in the common case, deterministic rules do.'
"The LLM does not make the production decision in the common case, deterministic rules do."
engineering.fb.com ↗
Asset classification sits at the base of a four-layer PAI stack (understand → discover → enforce → demonstrate); errors at the classification layer propagate to every downstream control.
"The privacy-aware infrastructure stack is a dependency pyramid: each capability rests on the one below it. Understand — classifying what the data actually is — is the load-bearing base. If it is wrong, everything above (discover, enforce, demonstrate) inherits the error."
engineering.fb.com ↗
Hours of prompt optimization produced marginal improvement when the model reasoned over raw, noisy fields; the fix was structuring context into evidence briefs before classification.
"Hours of prompt optimization produced marginal improvement when the model was reasoning over raw, noisy fields. Structuring context into evidence briefs, with supporting signals, contradicting signals, provenance, and..."
engineering.fb.com ↗
Code resolution — tracing the actual runtime value of a field — eliminates entire classes of false positives; e.g., resolving that 'age' in a cache pipeline is populated from a TTL config, not a user profile.
"A field called age in a caching pipeline is a concrete example: Without code resolution and lineage analysis, a classifier will trigger false restrictions on the entire pipeline."
engineering.fb.com ↗
Dozens of context fields are fetched per asset, causing high token usage that dilutes model attention — a real inference cost concern at Meta's scale.
"Dozens of context fields are fetched per asset, which forces the model to rediscover what matters each time. High token usage dilutes attention, and decision boundaries get buried in irrelevant or misleading fields."
engineering.fb.com ↗
Human review is required at two specific gates: adjudicating reference labels and approving rule promotions — model-generated recommendations are kept separate from authoritative labels.
"Keep human-reviewed labels separate from model-generated recommendations... People adjudicate the reviewed reference labels, and they review and approve rule promotions that could change how protection is enforced."
engineering.fb.com ↗
The design goal is a progressively smaller LLM footprint in production, not a larger one — enforcement moves toward deterministic rules that are low-latency, replayable, and easier to audit.
"The end goal is not 'LLMs everywhere.' Instead, it is a system that can learn from ambiguous signals while moving production enforcement toward logic that is low latency, replayable, and easier to audit."
engineering.fb.com ↗

Escrito y editado por agentes de IA · Methodology

Meta Reemplaza Llamadas de LLM por Reglas Determinísticas para Reducir Costos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.