Aprendizado em Contexto Amortizado Reduz o Custo de Serviço Few-Shot

Um novo artigo do ICML 2026 de NYU e do grupo de Kyunghyun Cho reformula a inferência few-shot como um problema Bayesiano hierárquico. O resultado: uma arquitetura de serviço onde a adaptação a priori requer zero atualizações de parâmetros e um único passe forward do transformer substitui a re-codificação repetida de contexto completo.

O artigo—"Multi-Task Bayesian In-Context Learning" de Qingyang Zhu, Eric Karl Oermann e Kyunghyun Cho—aborda uma ineficiência estrutural em como serviços de inferência lidam com contexto few-shot estático. Cada chamada com exemplos K-shot re-codifica o prompt completo através da pilha de atenção. Para serviços de alto volume com conjuntos de exemplos estáveis, esse custo por chamada é redundância pura. Prefilling de KV-cache e compressão de prompt tratam o sintoma. Este artigo corrige a causa.

O mecanismo, MT-ICL, treina-meta um transformer em sequências de pares (prior-task, target-task). O prior é codificado como um prefixo de datasets em contexto—entrada comum tokenizada no espaço de dados, não como um vetor latente ou distribuição de histograma. No momento da entrega, trocar esse prefixo orienta a distribuição preditiva a posteriori sem tocar nos pesos do modelo. O caminho de inferência: construir o prefixo uma vez, executar um passe forward por consulta. Nenhuma atualização de parâmetros, nenhuma cadeia MCMC, nenhum loop variacional no tempo da requisição.

A alegação de velocidade: "ordens de magnitude mais rápido" que oráculos MCMC em toda a suite de avaliação. A avaliação cobre quatro regimes—priors em distribuição, priors cauda pesada fora de distribuição, estruturas latentes de alta dimensão e dados de temperatura espaçotemporal ERA5. No ERA5, o modelo foi testado em um split futuro fora de distribuição de 2020 após treinamento em dados anteriores. A variante permutação-invariante (Set-MT), usando agregação de conjuntos em vez de prefixos ordenados, mostrou melhor robustez OOD. Os autores notam que desempenho em distribuição e OOD podem ser negativamente correlacionados quando modelos dependem de correlações específicas de ordem que não generalizam sob mudança de distribuição.

Prior-Data Fitted Networks (PFNs) e TabPFN incorporam um prior único nos pesos no momento de meta-treinamento. Mudar o prior significa retreinar. MT-ICL expõe uma interface de tempo de teste: o dataset prefixo se torna o knob a priori. Para arquitetos de serviço multi-tenant, onde usuários diferentes codificam crenças ou contextos de domínio diferentes, isso importa—você entrega uma interface a priori, não um prior congelado para todos os inquilinos.

Implicit In-Context Learning (I2CL), publicado no ICLR 2025, oferece um contraste mais nítido. I2CL comprime contexto K-shot em um vetor de contexto injetado em fluxos residuais, reduzindo o custo de inferência ao nível zero-shot com precisão próxima a few-shot em classificação de texto. MT-ICL lida com incerteza calibrada e mudança a priori. I2CL não faz. Os enfoques servem cargas de trabalho diferentes: I2CL se adequa a serviços de classificação que querem cortar sobrecarga de prompt; MT-ICL se adequa a serviços de previsão probabilística que precisam de priors controláveis e incerteza calibrada.

A barreira é o custo de meta-treinamento. Construir um modelo MT-ICL requer sequências de tarefas (prior, target) diversas, treinamento em famílias de priors e validação de generalização para priors não vistos. O repositório GitHub (martianmartina/multi-task-bayesian-icl) fornece implementação completa—ambiente conda, configs de treinamento e scripts ERA5—mas o resumo e README não relatam nada sobre tempo de wall-clock ou escala de dataset. Arquitetos avaliando isso para produção devem orçar o custo inicial e decidir se sua distribuição de consulta é estável o suficiente para amortizar.

Para serviços de inferência executando consultas few-shot repetidas contra um prior fixo ou lentamente mutável, a arquitetura de prefixo amortizada é a abstração correta: pagar o custo de treinamento uma vez, servir com um passe forward único, expor controle a priori sem retreinamento.

Sources

MT-ICL matches oracle Bayesian predictors while being orders of magnitude faster, evaluated across in-meta-distribution, OOD heavy-tailed, and high-dimensional latent structure regimes
"our method matches oracle Bayesian predictors while being orders of magnitude faster"
arxiv.org ↗
Prior information is represented as a prefix of in-context datasets; changing the prefix steers the posterior predictive distribution without any parameter updates
"changing the prefix datasets modifies the induced prior and correspondingly steers the posterior predictive distribution, without any parameter updates"
arxiv.org ↗
Existing approaches such as PFNs bake a single prior into model weights, making OOD prior adaptation impossible without retraining
"existing approaches are tightly coupled to the support of the training prior and lack explicit mechanisms for adapting to new priors at test time, resulting in limited robustness under distribution shift"
arxiv.org ↗
Set-MT variant uses set aggregation (permutation-invariant) for improved OOD robustness; IID and OOD performance can be negatively correlated
"the stronger permutation-invariant inductive bias of Set-MT appears to improve robustness by limiting reliance on order- or prefix-specific correlations"
arxiv.org ↗
The paper was accepted at ICML 2026 and code is publicly released with conda environment and training scripts
"This is the official implementation for paper: Multi-Task Bayesian In-Context Learning... (accepted at ICML 2026)"
github.com ↗
I2CL (ICLR 2025) reduces inference cost to zero-shot level by compressing K-shot context into a context vector injected into residual streams, validated on 9 real-world tasks across 3 models
"I2CL reduces both computational and memory expenses during inference to that of zero-shot level... Empirical evidence on nine real-world tasks across three different models suggests the potential of I2CL as a more efficient and robust alternative to ICL"
openreview.net ↗
Amortized in-context learning is part of a broader unified framework spanning meta-learning, ICL, prompt tuning, and learned optimizers that all share the principle of reusing computation across tasks
"Modern learning systems increasingly rely on amortized learning — the idea of reusing computation or inductive biases shared across tasks to enable rapid generalization to novel problems"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Aprendizado em Contexto Amortizado Reduz o Custo de Serviço Few-Shot

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.