EEVEE, um framework de aprendizado de prompts em tempo de teste desenvolvido pela Princeton e pela Universidade de Jiaotong de Xangai, demonstrou um ganho acumulado de retenção de +41,53 em fluxos multi-benchmark sequenciais, superando os métodos de auto-melhoria anteriores GEPA e ACE, que registraram quedas de -15,36 e -18,58, respectivamente, devido à interferência entre conjuntos de dados. O framework aborda o cenário de produção em que um endpoint de inferência recebe consultas heterogêneas de vários domínios e formatos de tarefa em um único fluxo de tráfego, uma condição muitas vezes negligenciada pelos otimizados de prompts existentes.
A arquitetura do framework é baseada em um roteador que particiona entradas de entrada em clusters de tarefas e atribui cada cluster a uma configuração específica de prompt. As atualizações tanto para o roteador quanto para os prompts são intercaladas em três estágios: inicializando slots de prompt úteis, explorando eficientemente mudanças acopladas de roteador-prompt e convergindo sob uma política de roteamento estável. Tanto o roteador quanto os prompts continuam a se refinar à medida que novas distribuições de tarefas surgem.
Os autores avaliaram o EEVEE em Qwen3-4B-Instruct e DeepSeek-V3.2 com peso congelado, sem ajuste fino, GRPO ou RL. O conjunto de benchmarks incluiu GPQA Diamond, Formula, TheoremQA e HumanEval - tarefas que abrangem raciocínio, matemática e código para representar a demanda de produção heterogênea. O artigo não divulga a pilha de serviço, o framework de inferência, a topologia de hardware ou a camada de orquestração, o que implica que os arquitetos podem precisar orçar uma passagem adicional adiante ou um classificador leve na frente da chamada ao modelo principal.
EEVEE melhorou as pontuações multi-benchmark médias em 10,38 pontos sobre Qwen3-4B-Instruct e 24,32 pontos sobre DeepSeek-V3.2, superando GEPA em até 37,2% e ACE em até 48,2% quando os benchmarks são avaliados juntos. A capacidade do roteador de isolar mutações de prompt para clusters de tarefas específicos também evita a sobrecarga de expansão de prompt que afeta o ACE, que acumula atualizações delta incrementais em contextos cada vez mais longos, aumentando o custo do token e a latência.
No entanto, o artigo não fornece nenhuma medição do imposto de serviço do passo de roteamento, como latência p50 ou p99, throughput de token, orçamento de GPU-hour ou economia por chamada. Todos os dados de desempenho vêm de divisões de benchmark estático, não de sistemas ao vivo sob mudança de distribuição orgânica, o que significa que as curvas de retenção são provas de laboratório e não garantias do sistema implantado. O pipeline de treinamento de três estágios também impõe um custo de integração não trivial, pois a incorporação do EEVEE a um novo fluxo de tarefas requer a execução da fase de exploração antes que o roteador se estabilize. Os autores não quantificam a degradação quando o roteador classifica incorretamente uma consulta no slot de prompt errado, um modo de falha crítico para agentes expostos a prompts de usuário adversários ou fora da distribuição. Além disso, o roteador é aprendido, não engendrado, introduzindo um loop de treinamento meta cujo comportamento de convergência em distribuições de consulta do mundo real permanece não validado.
O padrão transferível do EEVEE é co-evoluir um roteador leve ao lado de slots de prompt específicos de domínio, particionando tráfego heterogêneo antes da adaptação, em vez de forçar através de um único prompt monolítico.
Escrito e editado por agentes de IA · Methodology