Aprendizaje en Contexto Amortizado Reduce el Costo de Servicio Few-Shot

Un nuevo artículo del ICML 2026 de NYU y del grupo de Kyunghyun Cho reformula la inferencia few-shot como un problema Bayesiano jerárquico. El resultado: una arquitectura de servicio donde la adaptación previa requiere cero actualizaciones de parámetros y un único pase forward del transformer reemplaza la recodificación repetida de contexto completo.

El artículo—"Multi-Task Bayesian In-Context Learning" de Qingyang Zhu, Eric Karl Oermann y Kyunghyun Cho—aborda una ineficiencia estructural en cómo los servicios de inferencia manejan el contexto few-shot estático. Cada llamada con ejemplos K-shot recodifica el prompt completo a través de la pila de atención. Para servicios de alto volumen con conjuntos de ejemplos estables, ese costo por llamada es redundancia pura. El prefilling de KV-cache y la compresión de prompts parches los síntomas. Este artículo soluciona la causa.

El mecanismo, MT-ICL, meta-entrena un transformer en secuencias de pares (prior-task, target-task). El prior se codifica como un prefijo de datasets en contexto—entrada tokenizada ordinaria en espacio de datos, no como un vector latente o distribución de histograma. En el momento de la entrega, cambiar ese prefijo dirige la distribución predictiva posterior sin tocar los pesos del modelo. La ruta de inferencia: construir el prefijo una vez, ejecutar un pase forward por consulta. Sin actualizaciones de parámetros, sin cadenas MCMC, sin bucles variacionales en tiempo de solicitud.

La afirmación de velocidad: "órdenes de magnitud más rápido" que oráculos MCMC en todo el conjunto de evaluación. La evaluación cubre cuatro regímenes—priors en distribución, priors de cola pesada fuera de distribución, estructuras latentes de alta dimensión y datos de temperatura espaciotemporal ERA5. En ERA5, el modelo fue probado en una división futuro fuera de distribución de 2020 después del entrenamiento en datos anteriores. La variante invariante a permutaciones (Set-MT), usando agregación de conjuntos en lugar de prefijos ordenados, mostró mejor robustez OOD. Los autores señalan que el desempeño en distribución y OOD pueden estar negativamente correlacionados cuando los modelos se basan en correlaciones específicas de orden que no se generalizan bajo cambio de distribución.

Prior-Data Fitted Networks (PFNs) y TabPFN incorporan un prior único en los pesos en el momento del meta-entrenamiento. Cambiar el prior significa reentrenar. MT-ICL expone una interfaz de tiempo de prueba: el dataset prefijo se convierte en el botón de control anterior. Para arquitectos de servicio multi-tenant, donde diferentes usuarios codifican diferentes creencias o contextos de dominio, esto importa—entrega una interfaz anterior, no un prior congelado para todos los inquilinos.

Implicit In-Context Learning (I2CL), publicado en ICLR 2025, ofrece un contraste más claro. I2CL comprime el contexto K-shot en un vector de contexto inyectado en flujos residuales, reduciendo el costo de inferencia al nivel zero-shot con precisión cercana a few-shot en clasificación de texto. MT-ICL maneja incertidumbre calibrada y cambio anterior. I2CL no. Los enfoques sirven cargas de trabajo diferentes: I2CL se adapta a servicios de clasificación que desean reducir la sobrecarga de prompts; MT-ICL se adapta a servicios de predicción probabilística que necesitan priors controlables e incertidumbre calibrada.

La barrera es el costo del meta-entrenamiento. Construir un modelo MT-ICL requiere secuencias diversas de tareas (prior, target), entrenamiento en familias de priors y validación de generalización a priors no vistos. El repositorio de GitHub (martianmartina/multi-task-bayesian-icl) proporciona implementación completa—entorno conda, configuraciones de entrenamiento y scripts ERA5—pero el resumen y README no reportan nada sobre tiempo de reloj de pared o escala de dataset. Los arquitectos que evalúan esto para producción deben presupuestar el costo inicial y decidir si su distribución de consultas es lo suficientemente estable para amortizar.

Para servicios de inferencia ejecutando consultas few-shot repetidas contra un prior fijo o lentamente cambiante, la arquitectura de prefijo amortizada es la abstracción correcta: pagar el costo de entrenamiento una vez, servir con un pase forward único, exponer control previo sin reentrenamiento.

Sources

MT-ICL matches oracle Bayesian predictors while being orders of magnitude faster, evaluated across in-meta-distribution, OOD heavy-tailed, and high-dimensional latent structure regimes
"our method matches oracle Bayesian predictors while being orders of magnitude faster"
arxiv.org ↗
Prior information is represented as a prefix of in-context datasets; changing the prefix steers the posterior predictive distribution without any parameter updates
"changing the prefix datasets modifies the induced prior and correspondingly steers the posterior predictive distribution, without any parameter updates"
arxiv.org ↗
Existing approaches such as PFNs bake a single prior into model weights, making OOD prior adaptation impossible without retraining
"existing approaches are tightly coupled to the support of the training prior and lack explicit mechanisms for adapting to new priors at test time, resulting in limited robustness under distribution shift"
arxiv.org ↗
Set-MT variant uses set aggregation (permutation-invariant) for improved OOD robustness; IID and OOD performance can be negatively correlated
"the stronger permutation-invariant inductive bias of Set-MT appears to improve robustness by limiting reliance on order- or prefix-specific correlations"
arxiv.org ↗
The paper was accepted at ICML 2026 and code is publicly released with conda environment and training scripts
"This is the official implementation for paper: Multi-Task Bayesian In-Context Learning... (accepted at ICML 2026)"
github.com ↗
I2CL (ICLR 2025) reduces inference cost to zero-shot level by compressing K-shot context into a context vector injected into residual streams, validated on 9 real-world tasks across 3 models
"I2CL reduces both computational and memory expenses during inference to that of zero-shot level... Empirical evidence on nine real-world tasks across three different models suggests the potential of I2CL as a more efficient and robust alternative to ICL"
openreview.net ↗
Amortized in-context learning is part of a broader unified framework spanning meta-learning, ICL, prompt tuning, and learned optimizers that all share the principle of reusing computation across tasks
"Modern learning systems increasingly rely on amortized learning — the idea of reusing computation or inductive biases shared across tasks to enable rapid generalization to novel problems"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Aprendizaje en Contexto Amortizado Reduce el Costo de Servicio Few-Shot

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.