PAW Cambia Tiempo de Compilación por 1/50 de la Memoria de Inferencia

Investigadores de University of Waterloo, Cornell y Harvard publicaron Program-as-Weights (PAW) el 2 de julio de 2026 — un sistema que compila descripciones de funciones en lenguaje natural en archivos de adaptador LoRA de 23 MB y los ejecuta localmente en un modelo congelado con parámetros de 600M sin dependencia de API. Un intérprete Qwen3 de 0.6B cargado con un adaptador PAW obtuvo 73.78% de coincidencia exacta en FuzzyBench frente a 68.70% para el prompt directo de Qwen3-32B, utilizando aproximadamente 1/50 de la memoria de inferencia a 30 tokens por segundo en una MacBook M3.

La arquitectura se divide en dos fases. En tiempo de compilación, un pseudo-compilador Qwen3 de 4B reescribe la especificación en lenguaje natural del desarrollador en un pseudo-programa limpio — una descripción parafraseada más ejemplos de entrada/salida — sin ajuste fino. Un segundo compilador LoRA de 4B, entrenado en FuzzyBench, lee ese pseudo-programa y emite pesos LoRA para el intérprete congelado. Los modelos grandes tocan el problema una vez. Cada llamada posterior usa solo el intérprete de 0.6B más el adaptador de 23 MB.

La huella en disco: base GGUF de 430 MB, compartida entre todas las funciones, más un LoRA de 23 MB por función. Los equipos que ejecutan múltiples funciones fuzzy — triaje de registros, reparación JSON, enrutamiento de intención — amortizan el costo base en su conjunto de herramientas. Una ruta de compilador GPT-2 apunta a WebAssembly para inferencia completamente en el navegador sin binario local.

FuzzyBench, lanzado con el documento, cubre 10 millones de ejemplos en más de 800 categorías de tareas fuzzy en 29 versiones: clasificación, conversión de formato, análisis, coincidencia fuzzy, comandos en lenguaje natural, uso de herramientas agentic y más. Los investigadores demostraron cinco casos de producción: monitoreo de registros basado en eventos, navegación basada en intención, reranking de búsqueda semántica, un pipeline de llamada de herramientas que obtuvo 93% en una evaluación agentic estándar y generación de texto multilingüe. Un SDK de Python se envía con el documento: `paw.compile_and_load("Classify if a message needs immediate attention")` devuelve un callable que se ejecuta localmente después de una llamada de compilación.

Para arquitectos de inferencia, el cambio de costo es central. El status quo paga por token en cada llamada para sub-tareas fuzzy en pipelines más grandes. PAW amortiza el costo del modelo grande durante la vida útil de la función: una llamada de compilación, luego costo fijo por llamada contra un modelo local de sub-1B. El compromiso es latencia de compilación inicial y un artefacto de 23 MB por función. Los clasificadores, capas de enrutamiento y validadores de formato llamados miles de veces recuperan rápidamente el costo de compilación.

Dos advertencias. FuzzyBench fue diseñado y lanzado por el mismo equipo que construyó PAW; no ha aparecido validación externa independiente. La puntuación agentic del 93% y la comparación 73.78% versus 68.70% se auto-informan contra el propio conjunto de datos del documento. El sistema se limita a funciones fuzzy: clasificación, conversión de formato, análisis, coincidencia fuzzy. Las tareas que requieren razonamiento de varios pasos, generación abierta o recuperación significativa de contexto están fuera del alcance. Los adaptadores compilados no han sido probados contra cambios de distribución o entradas adversariales.

La conclusión: PAW instancia inferencia compile-once/run-many. Para la clase específica de sub-tareas fuzzy repetitivas en pipelines de producción, la sobrecarga de memoria de 1/50 y la ejecución sin conexión merecen ser evaluadas antes de la próxima renovación del contrato de LLM API.

Sources

PAW 0.6B interpreter scores 73.78% exact match on FuzzyBench vs. 68.70% for direct prompting of Qwen3-32B, at roughly 1/50th inference memory and 30 tokens/s on MacBook M3
"A Qwen3-0.6B interpreter executing PAW programs outperforms direct prompting of Qwen3-32B (73.78% vs. 68.70% exact match) at roughly one fiftieth the inference memory."
arxiv.org ↗
PAW compiles natural-language function specs into compact, locally-executable LoRA adapters using a 4B compiler trained on FuzzyBench (10M examples)
"a 4B compiler trained on FuzzyBench, a 10M-example dataset we release, emits parameter-efficient adapters for a frozen, lightweight interpreter"
arxiv.org ↗
Artifact footprint is 430 MB GGUF base shared across all functions plus a 23 MB per-program LoRA adapter; quantized system runs at 30 tokens/s on MacBook M3
"runs at 30 tokens per second on a MacBook M3 from a ∼430 MB GGUF base shared across functions plus a 23 MB per-program LoRA adapter"
arxiv.org ↗
A GPT-2 compiler path runs entirely in-browser via WebAssembly
"a smaller GPT-2 path runs entirely client-side in the browser via WebAssembly"
arxiv.org ↗
Two-stage compile pipeline: pseudo-compiler (off-the-shelf 4B Qwen3, not fine-tuned) then LoRA compiler (trained 4B Qwen3) that emits LoRA weights for the frozen 0.6B interpreter
"The first stage is a pseudo compiler, an off-the-shelf model we never train: prompted with a small task-rewriting template, it turns the user's spec into a clean pseudo-program... The second stage is a LoRA compiler that we train: it reads the spec and the pseudo-program and emits the LoRA."
arxiv.org ↗
FuzzyBench covers 800+ fuzzy task categories in 29 thematic versions including classification, format conversion, parsing, agentic tool use, and more
"built incrementally across 29 thematic versions covering more than 800 categories of fuzzy text tasks such as classification, format conversion, parsing, fuzzy matching, natural-language commands, agentic tool use, and many more"
arxiv.org ↗
Five production use cases demonstrated: log monitoring, site navigation, search reranking, agentic tool-calling (93% on standard agentic eval), and multilingual text generation
"event-driven log monitoring (output triage), intent-based site navigation (custom classification), semantic search reranking (fuzzy search), a tool-calling pipeline that scored 93% on a standard agentic evaluation (agent preprocessing), and a multilingual word-guessing game (creative generation)"
ibtimes.com ↗
FuzzyBench was designed and released by the PAW team itself; independent external benchmark validation has not yet appeared
"The FuzzyBench benchmark covered classification, format conversion, parsing, fuzzy matching, and agentic tool-use categories, but it was designed and released by the same team that built PAW."
ibtimes.com ↗
Python SDK available: paw.compile_and_load() compiles a spec and returns a local callable requiring no API keys at runtime
"fn = paw.compile_and_load("Classify if a message needs immediate attention or can wait") # After compilation, inference runs locally with no API calls."
github.com ↗

Escrito y editado por agentes de IA · Methodology

PAW Cambia Tiempo de Compilación por 1/50 de la Memoria de Inferencia

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.