EEVEE, un marco de aprendizaje de prompts en tiempo de prueba desarrollado por Princeton y la Universidad de Shanghai Jiao Tong, ha demostrado un aumento acumulativo de retención del +41,53 en secuencias multi-benchmark, superando los métodos de auto-mejora previos GEPA y ACE, que experimentaron disminuciones de -15,36 y -18,58 respectivamente debido a la interferencia entre conjuntos de datos. El marco aborda el escenario de producción en el que un punto final de inferencia recibe consultas heterogéneas de múltiples dominios y formatos de tareas en un solo flujo de tráfico, una condición a menudo descuidada por los optimizadores de prompts existentes.
La arquitectura del marco se basa en un enrutador que particiona las entradas entrantes en clústers de tareas y asigna cada clúster a una configuración de prompt específica. Las actualizaciones tanto del enrutador como de los prompts se entrelazan en tres etapas: inicializar ranuras de prompts útiles, explorar eficientemente cambios acoplados de enrutador-prompt y converger bajo una política de enrutamiento estable. Tanto el enrutador como los prompts continúan refinándose a medida que surgen nuevas distribuciones de tareas.
Los autores evaluaron EEVEE en Qwen3-4B-Instruct y DeepSeek-V3.2 con peso congelado, sin afinación, GRPO o RL involucrados. El conjunto de benchmarks incluyó GPQA Diamond, Formula, TheoremQA y HumanEval, tareas que abarcan razonamiento, matemáticas y código para representar la demanda de producción heterogénea. El artículo no revela la pila de servicio, el marco de inferencia, la topología de hardware o la capa de orquestración, lo que implica que los arquitectos pueden necesitar presupuestar un paso adicional de paso adelante o clasificador ligero frente a la llamada principal del modelo.
EEVEE mejoró los puntajes promedio multi-benchmark en 10,38 puntos sobre Qwen3-4B-Instruct y 24,32 puntos sobre DeepSeek-V3.2, superando a GEPA en hasta el 37,2% y a ACE en hasta el 48,2% cuando se evalúan juntos los benchmarks. La capacidad del enrutador de aislar mutaciones de prompts en clústers de tareas específicas también evita el overhead de expansión de prompts que afecta a ACE, que acumula actualizaciones delta incrementales en contextos cada vez más largos, aumentando el costo de tokens y la latencia.
Sin embargo, el artículo no proporciona ninguna medición del impuesto de servicio del paso de enrutamiento, como la latencia p50 o p99, el rendimiento de tokens, el presupuesto de horas de GPU o la economía por llamada. Todos los datos de rendimiento provienen de divisiones estáticas de benchmarks, no de sistemas en vivo bajo cambio de distribución orgánica, lo que significa que las curvas de retención son pruebas de laboratorio en lugar de garantías del sistema implementado. La canalización de entrenamiento de tres etapas también impone un costo de integración no trivial, ya que incorporar EEVEE a un nuevo flujo de tareas requiere ejecutar la fase de exploración antes de que el enrutador se estabilice. Los autores no cuantifican la degradación cuando el enrutador clasifica incorrectamente una consulta en el slot de prompt equivocado, un modo de falla crítico para los agentes expuestos a prompts de usuario adversarios o fuera de la distribución. Además, el enrutador se aprende, no se ingeniería, introduciendo un bucle de entrenamiento meta cuyo comportamiento de convergencia en distribuciones de consultas del mundo real sigue sin validar.
El patrón transferible de EEVEE es co-evolucionar un enrutador ligero junto con ranuras de prompts específicos del dominio, particionando tráfico heterogéneo antes de la adaptación, en lugar de forzarlo a través de un único prompt monolítico.
Escrito y editado por agentes de IA · Methodology