Sistema Tahoe Text-to-SQL Reduz Retroalimentação do Compilador em 96%

O Tahoe, um sistema Text-to-SQL desenvolvido pela ByteDance e pela Georgia Tech, melhorou significativamente o desempenho do GPT-5.5 no benchmark Spider 2.0-Snow. A taxa de aprovação aumentou de 61,95% para 79,42%, uma ganho de 17,47 pontos percentuais, e as rodadas de crítica de retroalimentação do compilador foram reduzidas em 95,7%, de 2,79 para 0,12 por consulta. Essa melhoria é alcançada substituindo a refinação multi-turn do agente por uma única passagem aumentada por dicas, usando um Banco de Dicas aprendido a partir de rastros de erro e transferido sem retreinamento, o que também melhora o Doubao-2.0-lite em 19,7 pontos percentuais no mesmo benchmark.

A arquitetura do sistema separa o design do prompt da sinal de produção por meio de um ciclo de vida de duas fases. Durante o desenvolvimento, erros do compilador são distilados em Dicas de Sintaxe, capturando restrições específicas do dialeto, como citação de identificadores Snowflake de maiúsculas e minúsculas ou evitando funções sem suporte. Falhas de execução e lógica se tornam Dicas Semânticas, capturando convenções específicas do esquema. Essas preenchem um Banco de Dicas estruturado, onde dicas conflitantes são modeladas como estratégias em competição sob um gatilho de linguagem natural compartilhado, anotadas com sinais de recência e estatísticas de atribuição pós-hoc que resumem o sucesso empírico, dano, inércia e suporte. Em tempo de inferência, o Tahoe recupera estratégias aplicáveis, planeja sua combinação e sintetiza SQL de uma só vez. Este método evita a armadilha de computação do escalonamento de tempo de teste do agente, a armadilha da rigidez do ajuste fino supervisionado e o ruído de contexto do RAG da documentação.

A pilha é agnóstica em relação ao modelo, mas testada no GPT-5.5, com validação entre modelos no Doubao-2.0-lite e uma pontuação de base do Qwen-Coder de aproximadamente 30% de precisão de execução no Spider 2.0 sem estruturação. A avaliação usa 113 exemplos supervisionados do Spider 2.0-Snow-0212. O artigo afirma uma taxa de passagem de sintaxe Snowflake de 100%, mas não fornece uma base para essa métrica e omite detalhes sobre hardware de inferência, camada de serviço, latência absoluta ou custo por consulta.

As ganâncias operacionais são medidas em eficiência de chamada de LLM em vez de tempo de relógio de parede. A redução nas rodadas de crítica aborda diretamente a armadilha de computação do agente, colapsando a refinação multi-turn em geração de passagem quase única. Pass@4 melhora de 72,57% para 87,61%, indicando que mesmo com quatro amostras, o prompt aumentado por dicas supera a geração multi-amostra ingênua. Dicas de sintaxe se generalizam bem para exemplos Snowflake retidos; as ganâncias semânticas são mais estreitas e ligadas à fidelidade com que a carga de trabalho de desenvolvimento espelha as distribuições de consulta ao vivo.

Ainda não há evidência de produção, e a fase de implantação, onde a retroalimentação humana do tráfego ao vivo estende continuamente o Banco de Dicas, é adiada para trabalho futuro. O conjunto de avaliação é limitado a 113 exemplos, e a alegação de 100% de sintaxe carece de transparência de base. A transferência semântica é um risco se as consultas de produção divergirem do conjunto de desenvolvimento, potencialmente levando à acumulação de estratégias inativas no Banco de Dicas. O artigo também não relata a latência de recuperação da Camada de Estratégia, o comportamento de solicitações concorrentes e a sobrecarga de armazenamento para metadados de atribuição.

Para os praticantes, a lição chave é a desacoplagem da criação de prompts em tempo de desenvolvimento da acumulação de erros em tempo de execução por meio de um banco de dicas estruturado, ponderado por atribuição, que poderia evitar que as mudanças de esquema acionem a reescrita de prompts ou o retreinamento do modelo.

Sources

Tahoe lifts GPT-5.5 pass rate from 61.95% to 79.42% (a +17.47 percentage-point gain) on Spider 2.0-Snow-0212
"Tahoe raises pass rate from 61.95 percent to 79.42 percent"
arxiv.org ↗
Average compiler-feedback critic rounds reduced from 2.79 to 0.12 per sampled candidate — a 95.7% reduction
"reduces average compiler-feedback critic rounds from 2.79 to 0.12 per sampled candidate"
arxiv.org ↗
Tahoe achieves 100% Snowflake syntax pass rate on Spider 2.0-Snow
"achieves 100 percent Snowflake syntax pass rate"
arxiv.org ↗
The same Hint Bank transfers to Doubao-2.0-lite without retraining, yielding a +19.7 percentage-point pass-rate gain
"a 19.7 percentage-point pass-rate gain on Doubao-2.0-lite"
arxiv.org ↗
Pass@4 improves from 72.57% to 87.61% (a +15.04 percentage-point gain)
"pass-at-4 from 72.57 percent to 87.61 percent"
arxiv.org ↗
Qwen-Coder achieves approximately 30% execution accuracy on Spider 2.0 without specialized scaffolding
"even top-tier coding models (e.g., Qwen-Coder) achieve only ≈30% execution accuracy, with general-purpose models like GPT-4o often performing worse due to a lack of domain-specific discipline"
arxiv.org ↗
Tahoe's two-phase lifecycle distills compiler errors into Syntax Hints and execution/logic failures into Semantic Hints, stored in a structured Hint Bank
"Compiler feedback is distilled into reusable Syntax Hints that enforce dialect-specific rules, while execution and user feedback are converted into Semantic Hints that capture schema- and user-specific logic"
arxiv.org ↗
The Strategy Layer models conflicting user intents as competing strategies annotated with recency signals and post-learning attribution statistics
"A novel Strategy Layer models conflicting user intents as competing strategies under shared natural-language triggers; each strategy is annotated with a learning-time recency signal and, after learning, with post-learning attribution statistics that summarize its empirical success, harm, inertness, and support on actual generations"
arxiv.org ↗
Agentic test-time scaling suffers from total amnesia between sessions — the same errors repeat on every new query
"these systems suffer from total amnesia: they effectively 'reset' between sessions, repeating the same errors on every new query and learning nothing from previous failures"
arxiv.org ↗
The deployment-phase continuous learning loop — extending the Hint Bank from live user feedback — is deferred to future work
"We implement and evaluate the development-phase workflow, while leaving deployment-time human-feedback updates for future work"
arxiv.org ↗
Semantic transfer is more modest on held-out examples; gains depend on how well the development set covers the target query workload
"On held-out examples, syntax transfer remains strong, while semantic gains are more modest, suggesting that semantic benefits depend on how well the development set covers the target workload"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Sistema Tahoe Text-to-SQL Reduz Retroalimentação do Compilador em 96%

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.