Los LLM pueden inducir reglas ocultas, pero la ejecución procedural sigue sin resolver

El benchmark HERO'S JOURNEY de la UT Austin revela que los modelos de lenguaje grandes (LLM) de última generación pueden inducir reglas ocultas a partir de demostraciones en juegos de texto orientados a objetivos, pero esta capacidad es limitada e inconsistente. El benchmark incluye ocho tipos de tareas: cuatro de atributo y cuatro procedurales, expresados a través de cuatro formas de reglas estructurales con raíces léxicas controlables.

En cada episodio, un agente juega a un juego de texto con algunas mecánicas ocultas, infiriendo el requisito faltante a partir de demostraciones, verbalizando la regla y ejecutando un plan de varios pasos contra una entidad nueva. El código base liberado, disponible en PyPI como herosjourney v0.1.0 y en GitHub bajo una licencia MIT, admite APIs compatibles con OpenAI y endpoints locales a través de vLLM, Ollama y LM Studio. Se pueden agregar tareas personalizadas a través de archivos de reglas JSON o YAML sin escribir Python, convirtiéndolo en una herramienta de evaluación drop-in para pipelines de agentes.

La evaluación se centra en ECSR, o Tasa de Éxito Calibrada por Eficiencia: tasa de éxito multiplicada por eficiencia normalizada, donde la eficiencia es igual a la longitud del episodio de referencia dividida por el número de ejecuciones que el modelo consume, pisoteado en uno sobre n_intentos. Esta métrica penaliza a los agentes que finalmente tienen éxito a través de bucles de reintento de fuerza bruta. Una segunda métrica, RV (verbalización de la regla), utiliza un juez LLM para puntuar la descripción de texto libre del modelo del patrón extraído. Los autores probaron cuatro estrategias de dirección: prompt estándar, ReAct, HR e IDEA, para determinar si el andamiaje específico de la inducción cierra la brecha.

Este benchmark de investigación aún no tiene evidencia de implementación en producción; no se informa sobre horas de GPU, latencia por llamada o precios por token. La semántica de superficie, palabras reales frente a palabras nonce, tiene un efecto mínimo, lo que indica que el fracaso es estructural, no a nivel del vocabulario. La ejecución del proceso es el cuello de botella confirmado, y aunque los métodos de dirección mejoran el rendimiento en tareas de inducción de atributos, no proporcionan ganancias confiables en la inducción procedural, dejando a esa familia como el desafío abierto.

La brecha procedural es crucial para agentes de producción. La literatura de TextQuests ya estableció que los LLMs alucinan interacciones previas y repiten acciones en bucles a medida que las ventanas de contexto se extienden más allá de los 100K tokens, con los rendimientos de cálculo en tiempo de prueba que se aplanan después de un umbral de presupuesto. HERO'S JOURNEY afina ese hallazgo: incluso cuando los modelos infieren correctamente una regla, fallan al traducirla en una ejecución de varios pasos confiable, y el razonamiento estilo ReAct no resuelve el caso procedural. Los arquitectos deben tratar la inducción de reglas procedurales como un primitivo sin resolver, no como una sub-tarea para enterrar dentro de un marco de agente más amplio.

Para que este benchmark impulse decisiones de pila de lunes por la mañana, se necesita una tabla de líderes calibrada en costo y latencia: ECSR por dólar y por minuto de reloj de pared, medido en pilas de servicio concretos. El patrón transferible para robar hoy es la métrica ECSR en sí; si tu evaluación de agentes solo sigue la precisión final, estás recompensando bucles de reintento pesados en tokens que colapsan bajo presupuestos de producción. Y si estás construyendo arnes de evaluación internos, copia la interfaz de archivos de reglas JSON/YAML; desacoplar la definición de la tarea de la plantilla de Python es exactamente cómo mantienes la velocidad del benchmark alta a medida que el área de superficie de tu agente crece.

Trata la inducción procedural como un techo duro en lugar de una brecha de ingeniería de prompts, y hornea el éxito ajustado por eficiencia en cada evaluación de agente que ejecutes.

Sources

HERO'S JOURNEY covers eight tasks across attribute and procedural induction families, each with four structural rule forms, controllable lexical grounding, and identifiability conditions
"HERO'S JOURNEY covers eight tasks across attribute and procedural induction families, each with four structural rule forms, controllable lexical grounding, and identifiability conditions."
arxiv.org ↗
Models show evidence of rule induction, but the ability is limited and uneven; process execution adds an execution bottleneck; surface semantics has minimal effect; induction-specific steering methods show no reliable gains on procedural tasks
"models show evidence of rule induction, but the ability is limited and uneven across tasks. Meanwhile, process execution adds an execution bottleneck for models, whereas surface semantics has minimal effect. Induction-specific steering methods improve performance on attribute tasks but show no reliable gains on procedural tasks."
arxiv.org ↗
ECSR (Efficiency-Calibrated Success Rate) = success_rate × normalized_efficiency, where efficiency = reference_length / num_runs, floored at 1 / n_tries
"success_rate × normalized_efficiency, where efficiency = reference_length / num_runs and the floor is 1 / n_tries."
github.com ↗
The codebase is available on PyPI as herosjourney v0.1.0, MIT-licensed, supports OpenAI-compatible APIs and local endpoints; custom tasks injectable via JSON/YAML
"pip install herosjourney ... License MIT — see LICENSE."
github.com ↗
Four induction steering strategies were tested: standard, ReAct, HR, and IDEA
"episode_mode selects a steering strategy applied on top of your agent ... "standard" (default), "react", "hr", "idea""
github.com ↗
LLMs hallucinate prior interactions and repeat actions in loops as context windows stretch past 100K tokens, with test-time compute yields flattening after a budget threshold
"current models often hallucinate about prior interactions... Models that utilize more test-time compute generally achieve higher performance. However, this trend starts to diminish after a certain budget."
huggingface.co ↗
Knowledge benchmarks like MMLU and GPQA are now largely saturated; static knowledge success does not always translate to dynamic, interactive settings
"Knowledge benchmarks, such as MMLU and GPQA, are now largely saturated... this success in static, knowledge-based tasks does not always translate to effectiveness in dynamic, interactive settings."
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

Los LLM pueden inducir reglas ocultas, pero la ejecución procedural sigue sin resolver

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.