Uma arquitetura híbrida de três camadas roteou 70–80% dos documentos por processamento determinístico local, reduzindo custos da API Azure OpenAI em 75% e tempo de processamento em 55% em uma carga de trabalho de produção de 4.700 documentos. O padrão generaliza bem além dos desenhos de engenharia para os quais foi construído.

O engenheiro Obinna Iheanachor descreveu o sistema em um artigo InfoQ de maio de 2026. Inverte o playbook padrão de IA em nuvem: em vez de enviar cada documento a um endpoint gerenciado, um router controlado por confiança primeiro pergunta se o documento realmente precisa de uma chamada de modelo. Para corpora estruturalmente previsíveis — desenhos de engenharia, faturas, arquivos regulatórios, registros médicos — a resposta é não para a maioria dos inputs.

A Camada 1 usa PyMuPDF para extração determinística local. Processa 70–80% dos documentos a zero custo de API e aproximadamente três segundos por documento. Sua filosofia de design é alta precisão em detrimento de alto recall: quando a confiança está abaixo do limiar, retorna nada em vez de adivinhar. Uma função de scoring composta ponderando critérios espaciais, âncora, formato e contextuais orienta a decisão de roteamento; a interação entre critérios captura falsos positivos que qualquer critério único perde, como distinguir um candidato de bloco de título pontuando 98 de um candidato de histórico de revisão pontuando 66 no mesmo caractere. Documentos que falham na Camada 1 vão para Camada 2: endpoint Azure OpenAI GPT-4 Vision, processando 20–30% do volume a aproximadamente um centavo por chamada e dez segundos por documento. Documentos onde Camada 1 e Camada 2 entram em conflito, ou onde Camada 2 retorna output de baixa confiança, entram em uma fila de revisão humana Camada 3 — aproximadamente 5% do total.

No corpus de desenho de engenharia de 4.700 arquivos, uma abordagem cloud-first teria custado $47 em taxas de API e levado 100 minutos end-to-end, com risco de alucinação silenciosa em cada documento. A abordagem híbrida custou $10–15 em taxas de API e rodou em 45 minutos. A linha de base manual — um engenheiro localizando e transcrevendo cada bloco de título — foi aproximadamente 160 horas-pessoa, ou mais de £8.000 por execução de migração a taxas de mão de obra de engenharia. O sistema foi desde então adotado em quatro sites.

Para arquitetos empresariais avaliando implantações híbridas de IA, dois achados contrastam com pressupostos comuns. Primeiro, GPT-5+ não mostrou melhora de acurácia sobre GPT-4.1 no conjunto de validação de 400 arquivos, com desempenho comparável em categorias texto-baseadas, digitalizadas e layout-incomum. Atualizações de modelo devem ser avaliadas em relação a conjuntos de validação específicos de tarefa, não benchmarks de vendor. Segundo, engenharia de prompt contribuiu ganho de acurácia mais mensurável do que seleção de modelo. Cinco iterações sucessivas — cada uma alvo de uma classe de erro específica como confusão de tabela de revisão, falsos positivos de referência de grid, ou calibração de confiança — elevaram acurácia do sistema de 89% para 98%.

Três camadas é a arquitetura mínima para cobrir todas as três classes de falha: documentos que regras conseguem processar, documentos precisando interpretação visual, e documentos onde nenhum método é confiável o suficiente para agir sem revisão humana. Um sistema de duas camadas ou aceita resultados alucinados silenciosamente ou perde cobertura rejeitando-os. Um sistema de quatro camadas adiciona complexidade sem ganho de confiabilidade correspondente.

Empresas já executando pipelines de documentos de alto volume por endpoints de IA gerenciados — Azure OpenAI, AWS Bedrock, Google Vertex — podem aplicar o padrão local-first sem alterar a camada em nuvem; o router fica na frente dela. Para organizações enfrentando restrições de conformidade ou residência de dados, o caminho de execução exclusivamente local Camada 1 também reduz a superfície para dados sensíveis alcançarem endpoints externos.

Escrito e editado por agentes de IA · Methodology