Bundesbank Logra 91% de Precisión en Elegibilidad de Garantías Automatizada

El Banco Central alemán reemplazó pipelines frágiles de NER con análisis sintáctico LLM de extremo a extremo para extraer criterios de elegibilidad de prospectos legales—un caso de estudio de producción en comprensión de documentos de alto riesgo con ruido de OCR y complejidad multilingüe.

El Deutsche Bundesbank reemplazó un pipeline frágil de Named Entity Recognition con un stack LLM generativo para el cribado de elegibilidad de garantías de valores mobiliarios, publicando el primer caso de estudio de examen regulatorio basado en LLM en un banco central. El documento, coautor de investigadores afiliados a Bundesbank de la Universidad Anhalt de Ciencias Aplicadas y publicado el 25 de junio de 2026, logra 91% de precisión en decisiones de elegibilidad a nivel de documento y está calibrado para rechazar falsos positivos en lugar de perder valores mobiliarios válidos.

Bajo las reglas del Eurosistema del BCE, cada transacción de crédito del Bundesbank requiere respaldo de garantía elegible. Seis criterios deben cumplirse todos: moneda (EUR, USD, GBP o JPY), tipo de instrumento, principal fijo, amortización completa al vencimiento, estructura de cupón permitida y estado no subordinado. Miles de valores mobiliarios se emiten anualmente como prospectos en PDF que contienen cientos de páginas, son semiestructurados e frecuentemente intercalan alemán e inglés en columnas paralelas.

El antiguo sistema NER basado en Transformer funcionaba en texto limpio pero tenía tres responsabilidades de producción: requería anotación manual para cada nuevo tipo, los límites de span se rompían bajo artefactos de OCR y no tenía mecanismo de conmutación de idioma. La entrada de OCR en alemán-inglés desordenada degradaba la precisión.

El nuevo pipeline extrae, normaliza e interpreta—zero-shot, sin fine-tuning. La inferencia se ejecuta en Llama-3.3-70B-Instruct y Cohere Command-R 08-2024. Una instancia separada de Mistral Small 3.1 actúa como árbitro. La evaluación reemplaza la coincidencia de span basada en ubicación con puntuación LLM-as-a-judge que evalúa la corrección semántica en lugar de la superposición de tokens, haciéndola resistente al ruido de OCR que rompió el sistema NER.

Los seis criterios se dividen en dos niveles. Los primeros cuatro ("simple") extraen una entidad por criterio: moneda, clase de instrumento, estructura principal, términos de amortización. Los últimos dos ("complejo")—estructura de cupón y estado de subordinación—requieren árboles de decisión entre múltiples entidades extraídas más datos maestros externos. La capa de árbol de decisión se encuentra encima de la etapa de extracción generativa, no dentro de ella.

La cifra del 91% cubre la elegibilidad binaria a nivel de documento: ¿el prospecto cumple con los seis criterios? El sistema opera de manera conservadora, calibrado para minimizar la aceptación falsa. Los errores tienden a rechazar incorrectamente un valor mobiliario válido en lugar de pasar uno inelegible—deliberado en la gestión de garantías, donde un falso negativo desperdicia el tiempo del analista mientras que un falso positivo expone al banco central al riesgo financiero.

No reportado: cifras de recall para criterios complejos de cupón y estado a nivel de campo, latencia o costo por documento a escala de producción. El método LLM-as-a-judge introduce un segundo punto de fallo—Mistral Small 3.1 evaluando salidas de Llama-3.3-70B—y la calibración entre los dos no se publica. Los equipos que adopten este patrón deben tratar el 91% como un techo en entrada OCR limpia, no un piso.

Los modelos zero-shot de clase 70B con pipelines estructurados de múltiples etapas pueden reemplazar NER intensivo en anotaciones para la extracción de documentos de alto riesgo. La capa de interpretación de árbol de decisión sigue viviendo fuera del modelo, y su arnés de evaluación es en sí mismo un LLM que debe validar.

Sources

LLM-based systems achieve up to 91% precision in document-level eligibility determination at the Deutsche Bundesbank
"Our results demonstrate that LLM-based systems achieve high precision (up to 91%) in document-level eligibility, exhibiting a conservative operating profile that minimizes false acceptance."
arxiv.org ↗
The pipeline uses Llama-3.3-70B-Instruct and Cohere Command-R 08-2024 for inference, with Mistral Small 3.1 Instruct as the LLM judge
"our study focuses on the zero-shot and instruction-following capabilities of high-performance general-purpose models: Llama-3.3-70B-Instruct and Cohere Command-R 08-2024 for inference, and Mistral Small 3.1 Instruct for evaluation"
arxiv.org ↗
The task decomposes into six eligibility criteria — currency, instrument type, principal amount, redemption at maturity, coupon structure, and subordination status — all of which must be satisfied
"eligibility is determined by 6 criteria, all of which must be fulfilled for the prospectus to be eligible"
arxiv.org ↗
The prior NER-based system required extensive manual annotation and was fragile under OCR artifacts and rigid span boundaries
"that approach introduced several constraints, primarily: it required extensive manual annotation to provide necessary supervision for all relevant annotation types, and the resulting models were sensitive to the rigid boundaries of text spans (which made them fragile when encountering OCR artifacts or financial language different from its training set)"
arxiv.org ↗
The new pipeline replaces location-based span metrics with a value-based LLM-as-a-judge evaluation resistant to OCR noise
"Introducing a value-based evaluation methodology using LLM-as-a-judge, resistant to OCR noise and linguistic variance"
arxiv.org ↗
Prospectuses are PDF files that can run hundreds of pages, are semi-structured, and frequently bilingual with German and English interleaved or in parallel columns
"Prospectuses can be bilingual, with English or German interleaved or presented in parallel columns, requiring models that are robust to language switching"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Bundesbank Logra 91% de Precisión en Elegibilidad de Garantías Automatizada

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.