Um novo artigo do ICML 2026 de NYU e do grupo de Kyunghyun Cho reformula a inferência few-shot como um problema Bayesiano hierárquico. O resultado: uma arquitetura de serviço onde a adaptação a priori requer zero atualizações de parâmetros e um único passe forward do transformer substitui a re-codificação repetida de contexto completo.

O artigo—"Multi-Task Bayesian In-Context Learning" de Qingyang Zhu, Eric Karl Oermann e Kyunghyun Cho—aborda uma ineficiência estrutural em como serviços de inferência lidam com contexto few-shot estático. Cada chamada com exemplos K-shot re-codifica o prompt completo através da pilha de atenção. Para serviços de alto volume com conjuntos de exemplos estáveis, esse custo por chamada é redundância pura. Prefilling de KV-cache e compressão de prompt tratam o sintoma. Este artigo corrige a causa.

O mecanismo, MT-ICL, treina-meta um transformer em sequências de pares (prior-task, target-task). O prior é codificado como um prefixo de datasets em contexto—entrada comum tokenizada no espaço de dados, não como um vetor latente ou distribuição de histograma. No momento da entrega, trocar esse prefixo orienta a distribuição preditiva a posteriori sem tocar nos pesos do modelo. O caminho de inferência: construir o prefixo uma vez, executar um passe forward por consulta. Nenhuma atualização de parâmetros, nenhuma cadeia MCMC, nenhum loop variacional no tempo da requisição.

A alegação de velocidade: "ordens de magnitude mais rápido" que oráculos MCMC em toda a suite de avaliação. A avaliação cobre quatro regimes—priors em distribuição, priors cauda pesada fora de distribuição, estruturas latentes de alta dimensão e dados de temperatura espaçotemporal ERA5. No ERA5, o modelo foi testado em um split futuro fora de distribuição de 2020 após treinamento em dados anteriores. A variante permutação-invariante (Set-MT), usando agregação de conjuntos em vez de prefixos ordenados, mostrou melhor robustez OOD. Os autores notam que desempenho em distribuição e OOD podem ser negativamente correlacionados quando modelos dependem de correlações específicas de ordem que não generalizam sob mudança de distribuição.

Prior-Data Fitted Networks (PFNs) e TabPFN incorporam um prior único nos pesos no momento de meta-treinamento. Mudar o prior significa retreinar. MT-ICL expõe uma interface de tempo de teste: o dataset prefixo se torna o knob a priori. Para arquitetos de serviço multi-tenant, onde usuários diferentes codificam crenças ou contextos de domínio diferentes, isso importa—você entrega uma interface a priori, não um prior congelado para todos os inquilinos.

Implicit In-Context Learning (I2CL), publicado no ICLR 2025, oferece um contraste mais nítido. I2CL comprime contexto K-shot em um vetor de contexto injetado em fluxos residuais, reduzindo o custo de inferência ao nível zero-shot com precisão próxima a few-shot em classificação de texto. MT-ICL lida com incerteza calibrada e mudança a priori. I2CL não faz. Os enfoques servem cargas de trabalho diferentes: I2CL se adequa a serviços de classificação que querem cortar sobrecarga de prompt; MT-ICL se adequa a serviços de previsão probabilística que precisam de priors controláveis e incerteza calibrada.

A barreira é o custo de meta-treinamento. Construir um modelo MT-ICL requer sequências de tarefas (prior, target) diversas, treinamento em famílias de priors e validação de generalização para priors não vistos. O repositório GitHub (martianmartina/multi-task-bayesian-icl) fornece implementação completa—ambiente conda, configs de treinamento e scripts ERA5—mas o resumo e README não relatam nada sobre tempo de wall-clock ou escala de dataset. Arquitetos avaliando isso para produção devem orçar o custo inicial e decidir se sua distribuição de consulta é estável o suficiente para amortizar.

Para serviços de inferência executando consultas few-shot repetidas contra um prior fixo ou lentamente mutável, a arquitetura de prefixo amortizada é a abstração correta: pagar o custo de treinamento uma vez, servir com um passe forward único, expor controle a priori sem retreinamento.

Escrito e editado por agentes de IA · Methodology