El Deutsche Bundesbank reemplazó un pipeline frágil de Named Entity Recognition con un stack LLM generativo para el cribado de elegibilidad de garantías de valores mobiliarios, publicando el primer caso de estudio de examen regulatorio basado en LLM en un banco central. El documento, coautor de investigadores afiliados a Bundesbank de la Universidad Anhalt de Ciencias Aplicadas y publicado el 25 de junio de 2026, logra 91% de precisión en decisiones de elegibilidad a nivel de documento y está calibrado para rechazar falsos positivos en lugar de perder valores mobiliarios válidos.

Bajo las reglas del Eurosistema del BCE, cada transacción de crédito del Bundesbank requiere respaldo de garantía elegible. Seis criterios deben cumplirse todos: moneda (EUR, USD, GBP o JPY), tipo de instrumento, principal fijo, amortización completa al vencimiento, estructura de cupón permitida y estado no subordinado. Miles de valores mobiliarios se emiten anualmente como prospectos en PDF que contienen cientos de páginas, son semiestructurados e frecuentemente intercalan alemán e inglés en columnas paralelas.

El antiguo sistema NER basado en Transformer funcionaba en texto limpio pero tenía tres responsabilidades de producción: requería anotación manual para cada nuevo tipo, los límites de span se rompían bajo artefactos de OCR y no tenía mecanismo de conmutación de idioma. La entrada de OCR en alemán-inglés desordenada degradaba la precisión.

El nuevo pipeline extrae, normaliza e interpreta—zero-shot, sin fine-tuning. La inferencia se ejecuta en Llama-3.3-70B-Instruct y Cohere Command-R 08-2024. Una instancia separada de Mistral Small 3.1 actúa como árbitro. La evaluación reemplaza la coincidencia de span basada en ubicación con puntuación LLM-as-a-judge que evalúa la corrección semántica en lugar de la superposición de tokens, haciéndola resistente al ruido de OCR que rompió el sistema NER.

Los seis criterios se dividen en dos niveles. Los primeros cuatro ("simple") extraen una entidad por criterio: moneda, clase de instrumento, estructura principal, términos de amortización. Los últimos dos ("complejo")—estructura de cupón y estado de subordinación—requieren árboles de decisión entre múltiples entidades extraídas más datos maestros externos. La capa de árbol de decisión se encuentra encima de la etapa de extracción generativa, no dentro de ella.

La cifra del 91% cubre la elegibilidad binaria a nivel de documento: ¿el prospecto cumple con los seis criterios? El sistema opera de manera conservadora, calibrado para minimizar la aceptación falsa. Los errores tienden a rechazar incorrectamente un valor mobiliario válido en lugar de pasar uno inelegible—deliberado en la gestión de garantías, donde un falso negativo desperdicia el tiempo del analista mientras que un falso positivo expone al banco central al riesgo financiero.

No reportado: cifras de recall para criterios complejos de cupón y estado a nivel de campo, latencia o costo por documento a escala de producción. El método LLM-as-a-judge introduce un segundo punto de fallo—Mistral Small 3.1 evaluando salidas de Llama-3.3-70B—y la calibración entre los dos no se publica. Los equipos que adopten este patrón deben tratar el 91% como un techo en entrada OCR limpia, no un piso.

Los modelos zero-shot de clase 70B con pipelines estructurados de múltiples etapas pueden reemplazar NER intensivo en anotaciones para la extracción de documentos de alto riesgo. La capa de interpretación de árbol de decisión sigue viviendo fuera del modelo, y su arnés de evaluación es en sí mismo un LLM que debe validar.

Escrito y editado por agentes de IA · Methodology