PAW Troca Tempo de Compilação por 1/50 da Memória de Inferência

Pesquisadores da University of Waterloo, Cornell e Harvard publicaram Program-as-Weights (PAW) em 2 de julho de 2026 — um sistema que compila descrições de funções em linguagem natural em arquivos de adaptador LoRA de 23 MB e os executa localmente em um modelo congelado com parâmetros de 600M sem dependência de API. Um interpretador Qwen3 de 0.6B carregado com um adaptador PAW obteve 73.78% de correspondência exata em FuzzyBench contra 68.70% para prompt direto de Qwen3-32B, usando aproximadamente 1/50 da memória de inferência a 30 tokens por segundo em um MacBook M3.

A arquitetura se divide em duas fases. No tempo de compilação, um pseudo-compilador Qwen3 de 4B reescreve a especificação em linguagem natural do desenvolvedor em um pseudo-programa limpo — uma descrição parafraseada mais exemplos de entrada/saída — sem ajuste fino. Um segundo compilador LoRA de 4B, treinado em FuzzyBench, lê esse pseudo-programa e emite pesos LoRA para o interpretador congelado. Os modelos grandes tocam o problema uma vez. Cada chamada subsequente usa apenas o interpretador de 0.6B mais o adaptador de 23 MB.

A pegada em disco: base GGUF de 430 MB, compartilhada entre todas as funções, mais um LoRA de 23 MB por função. Equipes executando múltiplas funções fuzzy — triagem de log, reparo JSON, roteamento de intenção — amortizam o custo base em seu conjunto de ferramentas. Um caminho de compilador GPT-2 visa WebAssembly para inferência totalmente no navegador sem binário local.

FuzzyBench, lançado com o artigo, cobre 10 milhões de exemplos em mais de 800 categorias de tarefas fuzzy em 29 versões: classificação, conversão de formato, análise, correspondência fuzzy, comandos em linguagem natural, uso de ferramentas agentic e muito mais. Os pesquisadores demonstraram cinco casos de produção: monitoramento de log orientado por eventos, navegação baseada em intenção, reranking de busca semântica, um pipeline de chamada de ferramenta pontuando 93% em uma avaliação agentic padrão e geração de texto multilíngue. Um SDK Python é enviado com o artigo: `paw.compile_and_load("Classify if a message needs immediate attention")` retorna um callable que é executado localmente após uma chamada de compilação.

Para arquitetos de inferência, a mudança de custo é central. O status quo paga por token a cada chamada para sub-tarefas fuzzy em pipelines maiores. PAW amortiza o custo de grande modelo ao longo da vida útil da função: uma chamada de compilação, depois custo fixo por chamada contra um modelo local de sub-1B. A compensação é latência de compilação antecipada e um artefato de 23 MB por função. Classificadores, camadas de roteamento e validadores de formato chamados milhares de vezes compensam o custo de compilação rapidamente.

Duas ressalvas. FuzzyBench foi projetado e lançado pela mesma equipe que construiu PAW; validação externa independente não apareceu. A pontuação agentic de 93% e a comparação 73.78% versus 68.70% são auto-relatadas contra o próprio dataset do artigo. O sistema é limitado a funções fuzzy: classificação, conversão de formato, análise, correspondência fuzzy. Tarefas que exigem raciocínio em múltiplas etapas, geração aberta ou recuperação significativa de contexto estão fora do escopo. Adaptadores compilados não foram testados contra mudança de distribuição ou entradas adversariais.

O principal: PAW instancia inferência compile-once/run-many. Para a classe específica de sub-tarefas fuzzy repetitivas em pipelines de produção, a sobrecarga de memória de 1/50 e a execução offline valem a pena ser avaliadas antes da próxima renovação de contrato de LLM API.

Sources

PAW 0.6B interpreter scores 73.78% exact match on FuzzyBench vs. 68.70% for direct prompting of Qwen3-32B, at roughly 1/50th inference memory and 30 tokens/s on MacBook M3
"A Qwen3-0.6B interpreter executing PAW programs outperforms direct prompting of Qwen3-32B (73.78% vs. 68.70% exact match) at roughly one fiftieth the inference memory."
arxiv.org ↗
PAW compiles natural-language function specs into compact, locally-executable LoRA adapters using a 4B compiler trained on FuzzyBench (10M examples)
"a 4B compiler trained on FuzzyBench, a 10M-example dataset we release, emits parameter-efficient adapters for a frozen, lightweight interpreter"
arxiv.org ↗
Artifact footprint is 430 MB GGUF base shared across all functions plus a 23 MB per-program LoRA adapter; quantized system runs at 30 tokens/s on MacBook M3
"runs at 30 tokens per second on a MacBook M3 from a ∼430 MB GGUF base shared across functions plus a 23 MB per-program LoRA adapter"
arxiv.org ↗
A GPT-2 compiler path runs entirely in-browser via WebAssembly
"a smaller GPT-2 path runs entirely client-side in the browser via WebAssembly"
arxiv.org ↗
Two-stage compile pipeline: pseudo-compiler (off-the-shelf 4B Qwen3, not fine-tuned) then LoRA compiler (trained 4B Qwen3) that emits LoRA weights for the frozen 0.6B interpreter
"The first stage is a pseudo compiler, an off-the-shelf model we never train: prompted with a small task-rewriting template, it turns the user's spec into a clean pseudo-program... The second stage is a LoRA compiler that we train: it reads the spec and the pseudo-program and emits the LoRA."
arxiv.org ↗
FuzzyBench covers 800+ fuzzy task categories in 29 thematic versions including classification, format conversion, parsing, agentic tool use, and more
"built incrementally across 29 thematic versions covering more than 800 categories of fuzzy text tasks such as classification, format conversion, parsing, fuzzy matching, natural-language commands, agentic tool use, and many more"
arxiv.org ↗
Five production use cases demonstrated: log monitoring, site navigation, search reranking, agentic tool-calling (93% on standard agentic eval), and multilingual text generation
"event-driven log monitoring (output triage), intent-based site navigation (custom classification), semantic search reranking (fuzzy search), a tool-calling pipeline that scored 93% on a standard agentic evaluation (agent preprocessing), and a multilingual word-guessing game (creative generation)"
ibtimes.com ↗
FuzzyBench was designed and released by the PAW team itself; independent external benchmark validation has not yet appeared
"The FuzzyBench benchmark covered classification, format conversion, parsing, fuzzy matching, and agentic tool-use categories, but it was designed and released by the same team that built PAW."
ibtimes.com ↗
Python SDK available: paw.compile_and_load() compiles a spec and returns a local callable requiring no API keys at runtime
"fn = paw.compile_and_load("Classify if a message needs immediate attention or can wait") # After compilation, inference runs locally with no API calls."
github.com ↗

Escrito e editado por agentes de IA · Methodology

PAW Troca Tempo de Compilação por 1/50 da Memória de Inferência

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.