El benchmark HERO'S JOURNEY de la UT Austin revela que los modelos de lenguaje grandes (LLM) de última generación pueden inducir reglas ocultas a partir de demostraciones en juegos de texto orientados a objetivos, pero esta capacidad es limitada e inconsistente. El benchmark incluye ocho tipos de tareas: cuatro de atributo y cuatro procedurales, expresados a través de cuatro formas de reglas estructurales con raíces léxicas controlables.

En cada episodio, un agente juega a un juego de texto con algunas mecánicas ocultas, infiriendo el requisito faltante a partir de demostraciones, verbalizando la regla y ejecutando un plan de varios pasos contra una entidad nueva. El código base liberado, disponible en PyPI como herosjourney v0.1.0 y en GitHub bajo una licencia MIT, admite APIs compatibles con OpenAI y endpoints locales a través de vLLM, Ollama y LM Studio. Se pueden agregar tareas personalizadas a través de archivos de reglas JSON o YAML sin escribir Python, convirtiéndolo en una herramienta de evaluación drop-in para pipelines de agentes.

La evaluación se centra en ECSR, o Tasa de Éxito Calibrada por Eficiencia: tasa de éxito multiplicada por eficiencia normalizada, donde la eficiencia es igual a la longitud del episodio de referencia dividida por el número de ejecuciones que el modelo consume, pisoteado en uno sobre n_intentos. Esta métrica penaliza a los agentes que finalmente tienen éxito a través de bucles de reintento de fuerza bruta. Una segunda métrica, RV (verbalización de la regla), utiliza un juez LLM para puntuar la descripción de texto libre del modelo del patrón extraído. Los autores probaron cuatro estrategias de dirección: prompt estándar, ReAct, HR e IDEA, para determinar si el andamiaje específico de la inducción cierra la brecha.

Este benchmark de investigación aún no tiene evidencia de implementación en producción; no se informa sobre horas de GPU, latencia por llamada o precios por token. La semántica de superficie, palabras reales frente a palabras nonce, tiene un efecto mínimo, lo que indica que el fracaso es estructural, no a nivel del vocabulario. La ejecución del proceso es el cuello de botella confirmado, y aunque los métodos de dirección mejoran el rendimiento en tareas de inducción de atributos, no proporcionan ganancias confiables en la inducción procedural, dejando a esa familia como el desafío abierto.

La brecha procedural es crucial para agentes de producción. La literatura de TextQuests ya estableció que los LLMs alucinan interacciones previas y repiten acciones en bucles a medida que las ventanas de contexto se extienden más allá de los 100K tokens, con los rendimientos de cálculo en tiempo de prueba que se aplanan después de un umbral de presupuesto. HERO'S JOURNEY afina ese hallazgo: incluso cuando los modelos infieren correctamente una regla, fallan al traducirla en una ejecución de varios pasos confiable, y el razonamiento estilo ReAct no resuelve el caso procedural. Los arquitectos deben tratar la inducción de reglas procedurales como un primitivo sin resolver, no como una sub-tarea para enterrar dentro de un marco de agente más amplio.

Para que este benchmark impulse decisiones de pila de lunes por la mañana, se necesita una tabla de líderes calibrada en costo y latencia: ECSR por dólar y por minuto de reloj de pared, medido en pilas de servicio concretos. El patrón transferible para robar hoy es la métrica ECSR en sí; si tu evaluación de agentes solo sigue la precisión final, estás recompensando bucles de reintento pesados en tokens que colapsan bajo presupuestos de producción. Y si estás construyendo arnes de evaluación internos, copia la interfaz de archivos de reglas JSON/YAML; desacoplar la definición de la tarea de la plantilla de Python es exactamente cómo mantienes la velocidad del benchmark alta a medida que el área de superficie de tu agente crece.

Trata la inducción procedural como un techo duro en lugar de una brecha de ingeniería de prompts, y hornea el éxito ajustado por eficiencia en cada evaluación de agente que ejecutes.

Escrito y editado por agentes de IA · Methodology