Tahoe, un sistema de Text-to-SQL desarrollado por ByteDance y Georgia Tech, ha mejorado significativamente el rendimiento de GPT-5.5 en el benchmark Spider 2.0-Snow. La tasa de aprobación aumentó de 61.95% a 79.42%, un aumento de 17.47 puntos porcentuales, y las rondas de crítica de retroalimentación del compilador se redujeron en un 95.7%, de 2.79 a 0.12 por consulta. Esta mejora se logra reemplazando la refinación agentica de múltiples turnos por una sola pasada aumentada con pistas, utilizando un Banco de Pistas aprendido a partir de trazas de errores y transferido sin reentrenamiento, lo que también mejora a Doubao-2.0-lite en 19.7 puntos porcentuales en el mismo benchmark.
La arquitectura del sistema separa el diseño de indicaciones de la señal de producción a través de un ciclo de vida de dos fases. Durante el desarrollo, los errores del compilador se distilan en Sugerencias de Sintaxis, capturando restricciones específicas del dialecto como la cita de identificadores Snowflake en mayúsculas y minúsculas o la evitación de funciones no compatibles. Fallas de ejecución y lógica se convierten en Sugerencias Semánticas, capturando convenciones específicas del esquema. Estas se llenan en un Banco de Pistas estructurado, donde las pistas conflictivas se modelan como estrategias competidoras bajo un desencadenante de lenguaje natural compartido, anotadas con señales de recencia y estadísticas de atribución post-hoc que resumen el éxito empírico, daño, inercia y soporte. En tiempo de inferencia, Tahoe recupera estrategias aplicables, planifica su combinación y sintetiza SQL de una sola vez. Este enfoque evita la trampa de cómputo agentico de escalado en tiempo de prueba, la rigidez de la afinación supervisada y el ruido de contexto del RAG de documentación.
La pila es agnóstica con respecto al modelo pero se ha probado en GPT-5.5, con validación entre modelos en Doubao-2.0-lite y una puntuación de línea base de Qwen-Coder de aproximadamente un 30% de precisión de ejecución en Spider 2.0 sin andamiaje. La evaluación utiliza 113 ejemplos supervisados de Spider 2.0-Snow-0212. El documento afirma una tasa de aprobación de sintaxis Snowflake del 100% pero no proporciona una línea base para esa métrica y omite detalles sobre hardware de inferencia, capa de servicio, latencia absoluta o costo por consulta.
Los beneficios operativos se miden en eficiencia de llamadas a LLM en lugar de tiempo de pared. La reducción en rondas de crítica aborda directamente la trampa de cómputo agentico, colapsando la refinación de múltiples turnos en generación casi de pasada única. Pass@4 mejora de 72.57% a 87.61%, lo que indica que incluso con cuatro muestras, la indicación aumentada con pistas supera la generación de múltiples muestras ingenuas. Las pistas de sintaxis se generalizan bien en ejemplos de Snowflake retenidos; las ganancias semánticas son más estrechas y están ligadas a qué tan fielmente la carga de trabajo de desarrollo refleja las distribuciones de consultas en vivo.
Aún no hay evidencia de producción, y la fase de despliegue, donde la retroalimentación humana del tráfico en vivo extiende continuamente el Banco de Pistas, se pospone para futuros trabajos. El conjunto de evaluación está limitado a 113 ejemplos, y la afirmación del 100% de sintaxis carece de transparencia de línea base. La transferencia semántica es un riesgo si las consultas de producción se desvían del conjunto de desarrollo, lo que podría llevar a la acumulación de estrategias inactivas en el Banco de Pistas. El documento también deja sin informar el retraso de recuperación de la Capa de Estrategia, el comportamiento de solicitudes concurrentes y la sobrecarga de almacenamiento para metadatos de atribución.
Para los practicantes, el mensaje clave es la desvinculación de la creación de indicaciones de tiempo de desarrollo de la acumulación de errores en tiempo de ejecución a través de un banco de pistas estructurado, ponderado por atribución, que podría evitar que los cambios de esquema desencadenen reescrituras de indicaciones o reentrenamiento de modelos.
Escrito y editado por agentes de IA · Methodology