Una arquitectura híbrida de tres niveles enrutó 70–80% de los documentos a través de procesamiento determinístico local, reduciendo costos de API Azure OpenAI en 75% y tiempo de procesamiento en 55% en una carga de trabajo de producción de 4.700 documentos. El patrón se generaliza bien más allá de los planos de ingeniería para los que fue construido.
El ingeniero Obinna Iheanachor describió el sistema en un artículo de InfoQ de mayo de 2026. Invierte el libro de juegos estándar de IA en la nube: en lugar de enviar cada documento a un endpoint administrado, un enrutador controlado por confianza primero pregunta si el documento realmente necesita una llamada de modelo. Para corpus estructuralmente predecibles — planos de ingeniería, facturas, expedientes regulatorios, historiales médicos — la respuesta es no para la mayoría de los inputs.
El Nivel 1 usa PyMuPDF para extracción determinística local. Maneja 70–80% de documentos a cero costo de API y aproximadamente tres segundos por documento. Su filosofía de diseño es alta precisión sobre alto recall: cuando la confianza está por debajo del umbral, devuelve nada en lugar de adivinar. Una función de puntuación compuesta ponderando criterios espaciales, anclaje, formato y contextuales impulsa la decisión de enrutamiento; la interacción entre criterios detecta falsos positivos que ningún criterio único pierde, como distinguir un candidato de bloque de título puntuando 98 de un candidato de historial de revisión puntuando 66 en el mismo carácter. Los documentos que fallan en Nivel 1 van al Nivel 2: endpoint Azure OpenAI GPT-4 Vision, manejando 20–30% del volumen a aproximadamente un centavo por llamada y diez segundos por documento. Los documentos donde Nivel 1 y Nivel 2 entran en conflicto, o donde Nivel 2 devuelve output de baja confianza, ingresan a una cola de revisión humana Nivel 3 — aproximadamente 5% del total.
En el corpus de plano de ingeniería de 4.700 archivos, un enfoque nativo de la nube habría costado $47 en tarifas de API y habría tomado 100 minutos end-to-end, con riesgo de alucinación silenciosa en cada documento. El enfoque híbrido costó $10–15 en tarifas de API y se ejecutó en 45 minutos. La línea de base manual — un ingeniero localizando y transcribiendo cada bloque de título — fue aproximadamente 160 horas-persona, o más de £8.000 por ejecución de migración a tasas de mano de obra de ingeniería. El sistema ha sido adoptado desde entonces en cuatro sitios.
Para arquitectos empresariales que evalúan despliegues de IA híbrida, dos hallazgos contrastan con suposiciones comunes. Primero, GPT-5+ no mostró mejora de precisión sobre GPT-4.1 en el conjunto de validación de 400 archivos, con desempeño comparable en categorías basadas en texto, escaneadas y de diseño inusual. Las actualizaciones de modelo deben evaluarse contra conjuntos de validación específicos de la tarea, no contra benchmarks de proveedores. Segundo, la ingeniería de prompts contribuyó una ganancia de precisión más mensurable que la selección de modelo. Cinco iteraciones sucesivas — cada una dirigida a una clase de error específica como confusión de tabla de revisión, falsos positivos de referencia de cuadrícula, o calibración de confianza — elevaron la precisión del sistema de 89% a 98%.
Tres niveles es la arquitectura mínima para cubrir las tres clases de falla: documentos que las reglas pueden manejar, documentos que necesitan interpretación visual, y documentos donde ninguno de los dos métodos es lo suficientemente confiable para actuar sin revisión humana. Un sistema de dos niveles acepta silenciosamente resultados alucinados o pierde cobertura rechazándolos. Un sistema de cuatro niveles agrega complejidad sin ganancia de confiabilidad correspondiente.
Las empresas que ya ejecutan pipelines de documentos de alto volumen a través de endpoints de IA administrados — Azure OpenAI, AWS Bedrock, Google Vertex — pueden aplicar el patrón local-first sin cambiar el nivel de nube en absoluto; el enrutador se sitúa frente a él. Para las organizaciones que enfrentan restricciones de conformidad o residencia de datos, la ruta de ejecución exclusivamente local del Nivel 1 también reduce la superficie para que datos sensibles lleguen a endpoints externos.
Escrito y editado por agentes de IA · Methodology