EEVEE Vence Agentes de Auto-Melhoria com Margem de 48% em Inferência Multi-Domínio

EEVEE, um framework de aprendizado de prompts em tempo de teste desenvolvido pela Princeton e pela Universidade de Jiaotong de Xangai, demonstrou um ganho acumulado de retenção de +41,53 em fluxos multi-benchmark sequenciais, superando os métodos de auto-melhoria anteriores GEPA e ACE, que registraram quedas de -15,36 e -18,58, respectivamente, devido à interferência entre conjuntos de dados. O framework aborda o cenário de produção em que um endpoint de inferência recebe consultas heterogêneas de vários domínios e formatos de tarefa em um único fluxo de tráfego, uma condição muitas vezes negligenciada pelos otimizados de prompts existentes.

A arquitetura do framework é baseada em um roteador que particiona entradas de entrada em clusters de tarefas e atribui cada cluster a uma configuração específica de prompt. As atualizações tanto para o roteador quanto para os prompts são intercaladas em três estágios: inicializando slots de prompt úteis, explorando eficientemente mudanças acopladas de roteador-prompt e convergindo sob uma política de roteamento estável. Tanto o roteador quanto os prompts continuam a se refinar à medida que novas distribuições de tarefas surgem.

Os autores avaliaram o EEVEE em Qwen3-4B-Instruct e DeepSeek-V3.2 com peso congelado, sem ajuste fino, GRPO ou RL. O conjunto de benchmarks incluiu GPQA Diamond, Formula, TheoremQA e HumanEval - tarefas que abrangem raciocínio, matemática e código para representar a demanda de produção heterogênea. O artigo não divulga a pilha de serviço, o framework de inferência, a topologia de hardware ou a camada de orquestração, o que implica que os arquitetos podem precisar orçar uma passagem adicional adiante ou um classificador leve na frente da chamada ao modelo principal.

EEVEE melhorou as pontuações multi-benchmark médias em 10,38 pontos sobre Qwen3-4B-Instruct e 24,32 pontos sobre DeepSeek-V3.2, superando GEPA em até 37,2% e ACE em até 48,2% quando os benchmarks são avaliados juntos. A capacidade do roteador de isolar mutações de prompt para clusters de tarefas específicos também evita a sobrecarga de expansão de prompt que afeta o ACE, que acumula atualizações delta incrementais em contextos cada vez mais longos, aumentando o custo do token e a latência.

No entanto, o artigo não fornece nenhuma medição do imposto de serviço do passo de roteamento, como latência p50 ou p99, throughput de token, orçamento de GPU-hour ou economia por chamada. Todos os dados de desempenho vêm de divisões de benchmark estático, não de sistemas ao vivo sob mudança de distribuição orgânica, o que significa que as curvas de retenção são provas de laboratório e não garantias do sistema implantado. O pipeline de treinamento de três estágios também impõe um custo de integração não trivial, pois a incorporação do EEVEE a um novo fluxo de tarefas requer a execução da fase de exploração antes que o roteador se estabilize. Os autores não quantificam a degradação quando o roteador classifica incorretamente uma consulta no slot de prompt errado, um modo de falha crítico para agentes expostos a prompts de usuário adversários ou fora da distribuição. Além disso, o roteador é aprendido, não engendrado, introduzindo um loop de treinamento meta cujo comportamento de convergência em distribuições de consulta do mundo real permanece não validado.

O padrão transferível do EEVEE é co-evoluir um roteador leve ao lado de slots de prompt específicos de domínio, particionando tráfego heterogêneo antes da adaptação, em vez de forçar através de um único prompt monolítico.

Sources

EEVEE improves average multi-benchmark scores by 10.38 points over Qwen3-4B-Instruct and 24.32 points over DeepSeek-V3.2, surpassing GEPA by up to 37.2% and ACE by up to 48.2%
"EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%."
arxiv.org ↗
EEVEE ends with +41.53 cumulative retention gain; GEPA ends at -15.36, ACE at -18.58 in the incremental multi-benchmark setting
"Eevee ends with a +41.53 cumulative retention gain after all tasks are introduced, while GEPA and ACE end at -15.36 and -18.58."
arxiv.org ↗
EEVEE introduces a router that partitions incoming inputs into task clusters and assigns each to suitable prompt configurations via a router-prompt co-evolution strategy
"Eevee introduces a router that partitions the stream into task clusters and assigns each cluster to a suitable prompt configuration... router-prompt co-evolution strategy that interleaves router and prompt learning phases."
arxiv.org ↗
Benchmark suite spans GPQA Diamond, Formula, TheoremQA, and HumanEval; base models tested are Qwen3-4B-Instruct and DeepSeek-V3.2 with no weight updates
"Incremental multi-benchmark retention improvement as tasks are added in the order GPQA Diamond, Formula, TheoremQA, and HumanEval."
arxiv.org ↗
GEPA (Genetic-Pareto) outperforms GRPO by 6pp on average and up to 19pp while using up to 35× fewer rollouts, and beats MIPROv2 by over 10pp — but is designed for single-benchmark settings
"Across six tasks, GEPA outperforms GRPO by 6 percentage points on average and by up to 19pp, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10 percentage points."
arxiv.org ↗
ACE (Agentic Context Engineering) achieved 10.6% average gain on AppWorld benchmark but produces ever-longer contexts via incremental delta updates — accumulating prompt expansion overhead
"ReAct + ACE outperforms selected baselines by an average of 10.6%... ACE produces longer contexts than methods such as GEPA, this does not translate to linearly higher inference cost or GPU memory usage."
arxiv.org ↗
Cross-dataset interference: when multiple benchmarks enter the adaptation stream, GEPA and ACE accumulate negative retention on previous tasks
"when more benchmarks enter the adaptation stream, GEPA and ACE accumulate negative retention on previous tasks, suggesting that a single learned prompt struggles to absorb heterogeneous feedback without losing task-specific behavior."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

EEVEE Vence Agentes de Auto-Melhoria com Margem de 48% em Inferência Multi-Domínio

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.