EEVEE supera agentes de auto-mejora con margen del 48% en inferencia multi-dominio

EEVEE, un marco de aprendizaje de prompts en tiempo de prueba desarrollado por Princeton y la Universidad de Shanghai Jiao Tong, ha demostrado un aumento acumulativo de retención del +41,53 en secuencias multi-benchmark, superando los métodos de auto-mejora previos GEPA y ACE, que experimentaron disminuciones de -15,36 y -18,58 respectivamente debido a la interferencia entre conjuntos de datos. El marco aborda el escenario de producción en el que un punto final de inferencia recibe consultas heterogéneas de múltiples dominios y formatos de tareas en un solo flujo de tráfico, una condición a menudo descuidada por los optimizadores de prompts existentes.

La arquitectura del marco se basa en un enrutador que particiona las entradas entrantes en clústers de tareas y asigna cada clúster a una configuración de prompt específica. Las actualizaciones tanto del enrutador como de los prompts se entrelazan en tres etapas: inicializar ranuras de prompts útiles, explorar eficientemente cambios acoplados de enrutador-prompt y converger bajo una política de enrutamiento estable. Tanto el enrutador como los prompts continúan refinándose a medida que surgen nuevas distribuciones de tareas.

Los autores evaluaron EEVEE en Qwen3-4B-Instruct y DeepSeek-V3.2 con peso congelado, sin afinación, GRPO o RL involucrados. El conjunto de benchmarks incluyó GPQA Diamond, Formula, TheoremQA y HumanEval, tareas que abarcan razonamiento, matemáticas y código para representar la demanda de producción heterogénea. El artículo no revela la pila de servicio, el marco de inferencia, la topología de hardware o la capa de orquestración, lo que implica que los arquitectos pueden necesitar presupuestar un paso adicional de paso adelante o clasificador ligero frente a la llamada principal del modelo.

EEVEE mejoró los puntajes promedio multi-benchmark en 10,38 puntos sobre Qwen3-4B-Instruct y 24,32 puntos sobre DeepSeek-V3.2, superando a GEPA en hasta el 37,2% y a ACE en hasta el 48,2% cuando se evalúan juntos los benchmarks. La capacidad del enrutador de aislar mutaciones de prompts en clústers de tareas específicas también evita el overhead de expansión de prompts que afecta a ACE, que acumula actualizaciones delta incrementales en contextos cada vez más largos, aumentando el costo de tokens y la latencia.

Sin embargo, el artículo no proporciona ninguna medición del impuesto de servicio del paso de enrutamiento, como la latencia p50 o p99, el rendimiento de tokens, el presupuesto de horas de GPU o la economía por llamada. Todos los datos de rendimiento provienen de divisiones estáticas de benchmarks, no de sistemas en vivo bajo cambio de distribución orgánica, lo que significa que las curvas de retención son pruebas de laboratorio en lugar de garantías del sistema implementado. La canalización de entrenamiento de tres etapas también impone un costo de integración no trivial, ya que incorporar EEVEE a un nuevo flujo de tareas requiere ejecutar la fase de exploración antes de que el enrutador se estabilice. Los autores no cuantifican la degradación cuando el enrutador clasifica incorrectamente una consulta en el slot de prompt equivocado, un modo de falla crítico para los agentes expuestos a prompts de usuario adversarios o fuera de la distribución. Además, el enrutador se aprende, no se ingeniería, introduciendo un bucle de entrenamiento meta cuyo comportamiento de convergencia en distribuciones de consultas del mundo real sigue sin validar.

El patrón transferible de EEVEE es co-evolucionar un enrutador ligero junto con ranuras de prompts específicos del dominio, particionando tráfico heterogéneo antes de la adaptación, en lugar de forzarlo a través de un único prompt monolítico.

Sources

EEVEE improves average multi-benchmark scores by 10.38 points over Qwen3-4B-Instruct and 24.32 points over DeepSeek-V3.2, surpassing GEPA by up to 37.2% and ACE by up to 48.2%
"EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%."
arxiv.org ↗
EEVEE ends with +41.53 cumulative retention gain; GEPA ends at -15.36, ACE at -18.58 in the incremental multi-benchmark setting
"Eevee ends with a +41.53 cumulative retention gain after all tasks are introduced, while GEPA and ACE end at -15.36 and -18.58."
arxiv.org ↗
EEVEE introduces a router that partitions incoming inputs into task clusters and assigns each to suitable prompt configurations via a router-prompt co-evolution strategy
"Eevee introduces a router that partitions the stream into task clusters and assigns each cluster to a suitable prompt configuration... router-prompt co-evolution strategy that interleaves router and prompt learning phases."
arxiv.org ↗
Benchmark suite spans GPQA Diamond, Formula, TheoremQA, and HumanEval; base models tested are Qwen3-4B-Instruct and DeepSeek-V3.2 with no weight updates
"Incremental multi-benchmark retention improvement as tasks are added in the order GPQA Diamond, Formula, TheoremQA, and HumanEval."
arxiv.org ↗
GEPA (Genetic-Pareto) outperforms GRPO by 6pp on average and up to 19pp while using up to 35× fewer rollouts, and beats MIPROv2 by over 10pp — but is designed for single-benchmark settings
"Across six tasks, GEPA outperforms GRPO by 6 percentage points on average and by up to 19pp, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10 percentage points."
arxiv.org ↗
ACE (Agentic Context Engineering) achieved 10.6% average gain on AppWorld benchmark but produces ever-longer contexts via incremental delta updates — accumulating prompt expansion overhead
"ReAct + ACE outperforms selected baselines by an average of 10.6%... ACE produces longer contexts than methods such as GEPA, this does not translate to linearly higher inference cost or GPU memory usage."
arxiv.org ↗
Cross-dataset interference: when multiple benchmarks enter the adaptation stream, GEPA and ACE accumulate negative retention on previous tasks
"when more benchmarks enter the adaptation stream, GEPA and ACE accumulate negative retention on previous tasks, suggesting that a single learned prompt struggles to absorb heterogeneous feedback without losing task-specific behavior."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

EEVEE supera agentes de auto-mejora con margen del 48% en inferencia multi-dominio

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.