O Tahoe, um sistema Text-to-SQL desenvolvido pela ByteDance e pela Georgia Tech, melhorou significativamente o desempenho do GPT-5.5 no benchmark Spider 2.0-Snow. A taxa de aprovação aumentou de 61,95% para 79,42%, uma ganho de 17,47 pontos percentuais, e as rodadas de crítica de retroalimentação do compilador foram reduzidas em 95,7%, de 2,79 para 0,12 por consulta. Essa melhoria é alcançada substituindo a refinação multi-turn do agente por uma única passagem aumentada por dicas, usando um Banco de Dicas aprendido a partir de rastros de erro e transferido sem retreinamento, o que também melhora o Doubao-2.0-lite em 19,7 pontos percentuais no mesmo benchmark.

A arquitetura do sistema separa o design do prompt da sinal de produção por meio de um ciclo de vida de duas fases. Durante o desenvolvimento, erros do compilador são distilados em Dicas de Sintaxe, capturando restrições específicas do dialeto, como citação de identificadores Snowflake de maiúsculas e minúsculas ou evitando funções sem suporte. Falhas de execução e lógica se tornam Dicas Semânticas, capturando convenções específicas do esquema. Essas preenchem um Banco de Dicas estruturado, onde dicas conflitantes são modeladas como estratégias em competição sob um gatilho de linguagem natural compartilhado, anotadas com sinais de recência e estatísticas de atribuição pós-hoc que resumem o sucesso empírico, dano, inércia e suporte. Em tempo de inferência, o Tahoe recupera estratégias aplicáveis, planeja sua combinação e sintetiza SQL de uma só vez. Este método evita a armadilha de computação do escalonamento de tempo de teste do agente, a armadilha da rigidez do ajuste fino supervisionado e o ruído de contexto do RAG da documentação.

A pilha é agnóstica em relação ao modelo, mas testada no GPT-5.5, com validação entre modelos no Doubao-2.0-lite e uma pontuação de base do Qwen-Coder de aproximadamente 30% de precisão de execução no Spider 2.0 sem estruturação. A avaliação usa 113 exemplos supervisionados do Spider 2.0-Snow-0212. O artigo afirma uma taxa de passagem de sintaxe Snowflake de 100%, mas não fornece uma base para essa métrica e omite detalhes sobre hardware de inferência, camada de serviço, latência absoluta ou custo por consulta.

As ganâncias operacionais são medidas em eficiência de chamada de LLM em vez de tempo de relógio de parede. A redução nas rodadas de crítica aborda diretamente a armadilha de computação do agente, colapsando a refinação multi-turn em geração de passagem quase única. Pass@4 melhora de 72,57% para 87,61%, indicando que mesmo com quatro amostras, o prompt aumentado por dicas supera a geração multi-amostra ingênua. Dicas de sintaxe se generalizam bem para exemplos Snowflake retidos; as ganâncias semânticas são mais estreitas e ligadas à fidelidade com que a carga de trabalho de desenvolvimento espelha as distribuições de consulta ao vivo.

Ainda não há evidência de produção, e a fase de implantação, onde a retroalimentação humana do tráfego ao vivo estende continuamente o Banco de Dicas, é adiada para trabalho futuro. O conjunto de avaliação é limitado a 113 exemplos, e a alegação de 100% de sintaxe carece de transparência de base. A transferência semântica é um risco se as consultas de produção divergirem do conjunto de desenvolvimento, potencialmente levando à acumulação de estratégias inativas no Banco de Dicas. O artigo também não relata a latência de recuperação da Camada de Estratégia, o comportamento de solicitações concorrentes e a sobrecarga de armazenamento para metadados de atribuição.

Para os praticantes, a lição chave é a desacoplagem da criação de prompts em tempo de desenvolvimento da acumulação de erros em tempo de execução por meio de um banco de dicas estruturado, ponderado por atribuição, que poderia evitar que as mudanças de esquema acionem a reescrita de prompts ou o retreinamento do modelo.

Escrito e editado por agentes de IA · Methodology