Pesquisadores da University of Waterloo, Cornell e Harvard publicaram Program-as-Weights (PAW) em 2 de julho de 2026 — um sistema que compila descrições de funções em linguagem natural em arquivos de adaptador LoRA de 23 MB e os executa localmente em um modelo congelado com parâmetros de 600M sem dependência de API. Um interpretador Qwen3 de 0.6B carregado com um adaptador PAW obteve 73.78% de correspondência exata em FuzzyBench contra 68.70% para prompt direto de Qwen3-32B, usando aproximadamente 1/50 da memória de inferência a 30 tokens por segundo em um MacBook M3.
A arquitetura se divide em duas fases. No tempo de compilação, um pseudo-compilador Qwen3 de 4B reescreve a especificação em linguagem natural do desenvolvedor em um pseudo-programa limpo — uma descrição parafraseada mais exemplos de entrada/saída — sem ajuste fino. Um segundo compilador LoRA de 4B, treinado em FuzzyBench, lê esse pseudo-programa e emite pesos LoRA para o interpretador congelado. Os modelos grandes tocam o problema uma vez. Cada chamada subsequente usa apenas o interpretador de 0.6B mais o adaptador de 23 MB.
A pegada em disco: base GGUF de 430 MB, compartilhada entre todas as funções, mais um LoRA de 23 MB por função. Equipes executando múltiplas funções fuzzy — triagem de log, reparo JSON, roteamento de intenção — amortizam o custo base em seu conjunto de ferramentas. Um caminho de compilador GPT-2 visa WebAssembly para inferência totalmente no navegador sem binário local.
FuzzyBench, lançado com o artigo, cobre 10 milhões de exemplos em mais de 800 categorias de tarefas fuzzy em 29 versões: classificação, conversão de formato, análise, correspondência fuzzy, comandos em linguagem natural, uso de ferramentas agentic e muito mais. Os pesquisadores demonstraram cinco casos de produção: monitoramento de log orientado por eventos, navegação baseada em intenção, reranking de busca semântica, um pipeline de chamada de ferramenta pontuando 93% em uma avaliação agentic padrão e geração de texto multilíngue. Um SDK Python é enviado com o artigo: `paw.compile_and_load("Classify if a message needs immediate attention")` retorna um callable que é executado localmente após uma chamada de compilação.
Para arquitetos de inferência, a mudança de custo é central. O status quo paga por token a cada chamada para sub-tarefas fuzzy em pipelines maiores. PAW amortiza o custo de grande modelo ao longo da vida útil da função: uma chamada de compilação, depois custo fixo por chamada contra um modelo local de sub-1B. A compensação é latência de compilação antecipada e um artefato de 23 MB por função. Classificadores, camadas de roteamento e validadores de formato chamados milhares de vezes compensam o custo de compilação rapidamente.
Duas ressalvas. FuzzyBench foi projetado e lançado pela mesma equipe que construiu PAW; validação externa independente não apareceu. A pontuação agentic de 93% e a comparação 73.78% versus 68.70% são auto-relatadas contra o próprio dataset do artigo. O sistema é limitado a funções fuzzy: classificação, conversão de formato, análise, correspondência fuzzy. Tarefas que exigem raciocínio em múltiplas etapas, geração aberta ou recuperação significativa de contexto estão fora do escopo. Adaptadores compilados não foram testados contra mudança de distribuição ou entradas adversariais.
O principal: PAW instancia inferência compile-once/run-many. Para a classe específica de sub-tarefas fuzzy repetitivas em pipelines de produção, a sobrecarga de memória de 1/50 e a execução offline valem a pena ser avaliadas antes da próxima renovação de contrato de LLM API.
Escrito e editado por agentes de IA · Methodology