Sistema Tahoe de Text-to-SQL Reduce el Retroalimentación del Compilador en un 96%

Tahoe, un sistema de Text-to-SQL desarrollado por ByteDance y Georgia Tech, ha mejorado significativamente el rendimiento de GPT-5.5 en el benchmark Spider 2.0-Snow. La tasa de aprobación aumentó de 61.95% a 79.42%, un aumento de 17.47 puntos porcentuales, y las rondas de crítica de retroalimentación del compilador se redujeron en un 95.7%, de 2.79 a 0.12 por consulta. Esta mejora se logra reemplazando la refinación agentica de múltiples turnos por una sola pasada aumentada con pistas, utilizando un Banco de Pistas aprendido a partir de trazas de errores y transferido sin reentrenamiento, lo que también mejora a Doubao-2.0-lite en 19.7 puntos porcentuales en el mismo benchmark.

La arquitectura del sistema separa el diseño de indicaciones de la señal de producción a través de un ciclo de vida de dos fases. Durante el desarrollo, los errores del compilador se distilan en Sugerencias de Sintaxis, capturando restricciones específicas del dialecto como la cita de identificadores Snowflake en mayúsculas y minúsculas o la evitación de funciones no compatibles. Fallas de ejecución y lógica se convierten en Sugerencias Semánticas, capturando convenciones específicas del esquema. Estas se llenan en un Banco de Pistas estructurado, donde las pistas conflictivas se modelan como estrategias competidoras bajo un desencadenante de lenguaje natural compartido, anotadas con señales de recencia y estadísticas de atribución post-hoc que resumen el éxito empírico, daño, inercia y soporte. En tiempo de inferencia, Tahoe recupera estrategias aplicables, planifica su combinación y sintetiza SQL de una sola vez. Este enfoque evita la trampa de cómputo agentico de escalado en tiempo de prueba, la rigidez de la afinación supervisada y el ruido de contexto del RAG de documentación.

La pila es agnóstica con respecto al modelo pero se ha probado en GPT-5.5, con validación entre modelos en Doubao-2.0-lite y una puntuación de línea base de Qwen-Coder de aproximadamente un 30% de precisión de ejecución en Spider 2.0 sin andamiaje. La evaluación utiliza 113 ejemplos supervisados de Spider 2.0-Snow-0212. El documento afirma una tasa de aprobación de sintaxis Snowflake del 100% pero no proporciona una línea base para esa métrica y omite detalles sobre hardware de inferencia, capa de servicio, latencia absoluta o costo por consulta.

Los beneficios operativos se miden en eficiencia de llamadas a LLM en lugar de tiempo de pared. La reducción en rondas de crítica aborda directamente la trampa de cómputo agentico, colapsando la refinación de múltiples turnos en generación casi de pasada única. Pass@4 mejora de 72.57% a 87.61%, lo que indica que incluso con cuatro muestras, la indicación aumentada con pistas supera la generación de múltiples muestras ingenuas. Las pistas de sintaxis se generalizan bien en ejemplos de Snowflake retenidos; las ganancias semánticas son más estrechas y están ligadas a qué tan fielmente la carga de trabajo de desarrollo refleja las distribuciones de consultas en vivo.

Aún no hay evidencia de producción, y la fase de despliegue, donde la retroalimentación humana del tráfico en vivo extiende continuamente el Banco de Pistas, se pospone para futuros trabajos. El conjunto de evaluación está limitado a 113 ejemplos, y la afirmación del 100% de sintaxis carece de transparencia de línea base. La transferencia semántica es un riesgo si las consultas de producción se desvían del conjunto de desarrollo, lo que podría llevar a la acumulación de estrategias inactivas en el Banco de Pistas. El documento también deja sin informar el retraso de recuperación de la Capa de Estrategia, el comportamiento de solicitudes concurrentes y la sobrecarga de almacenamiento para metadatos de atribución.

Para los practicantes, el mensaje clave es la desvinculación de la creación de indicaciones de tiempo de desarrollo de la acumulación de errores en tiempo de ejecución a través de un banco de pistas estructurado, ponderado por atribución, que podría evitar que los cambios de esquema desencadenen reescrituras de indicaciones o reentrenamiento de modelos.

Sources

Tahoe lifts GPT-5.5 pass rate from 61.95% to 79.42% (a +17.47 percentage-point gain) on Spider 2.0-Snow-0212
"Tahoe raises pass rate from 61.95 percent to 79.42 percent"
arxiv.org ↗
Average compiler-feedback critic rounds reduced from 2.79 to 0.12 per sampled candidate — a 95.7% reduction
"reduces average compiler-feedback critic rounds from 2.79 to 0.12 per sampled candidate"
arxiv.org ↗
Tahoe achieves 100% Snowflake syntax pass rate on Spider 2.0-Snow
"achieves 100 percent Snowflake syntax pass rate"
arxiv.org ↗
The same Hint Bank transfers to Doubao-2.0-lite without retraining, yielding a +19.7 percentage-point pass-rate gain
"a 19.7 percentage-point pass-rate gain on Doubao-2.0-lite"
arxiv.org ↗
Pass@4 improves from 72.57% to 87.61% (a +15.04 percentage-point gain)
"pass-at-4 from 72.57 percent to 87.61 percent"
arxiv.org ↗
Qwen-Coder achieves approximately 30% execution accuracy on Spider 2.0 without specialized scaffolding
"even top-tier coding models (e.g., Qwen-Coder) achieve only ≈30% execution accuracy, with general-purpose models like GPT-4o often performing worse due to a lack of domain-specific discipline"
arxiv.org ↗
Tahoe's two-phase lifecycle distills compiler errors into Syntax Hints and execution/logic failures into Semantic Hints, stored in a structured Hint Bank
"Compiler feedback is distilled into reusable Syntax Hints that enforce dialect-specific rules, while execution and user feedback are converted into Semantic Hints that capture schema- and user-specific logic"
arxiv.org ↗
The Strategy Layer models conflicting user intents as competing strategies annotated with recency signals and post-learning attribution statistics
"A novel Strategy Layer models conflicting user intents as competing strategies under shared natural-language triggers; each strategy is annotated with a learning-time recency signal and, after learning, with post-learning attribution statistics that summarize its empirical success, harm, inertness, and support on actual generations"
arxiv.org ↗
Agentic test-time scaling suffers from total amnesia between sessions — the same errors repeat on every new query
"these systems suffer from total amnesia: they effectively 'reset' between sessions, repeating the same errors on every new query and learning nothing from previous failures"
arxiv.org ↗
The deployment-phase continuous learning loop — extending the Hint Bank from live user feedback — is deferred to future work
"We implement and evaluate the development-phase workflow, while leaving deployment-time human-feedback updates for future work"
arxiv.org ↗
Semantic transfer is more modest on held-out examples; gains depend on how well the development set covers the target query workload
"On held-out examples, syntax transfer remains strong, while semantic gains are more modest, suggesting that semantic benefits depend on how well the development set covers the target workload"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Sistema Tahoe de Text-to-SQL Reduce el Retroalimentación del Compilador en un 96%

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.