Bundesbank Atinge 91% de Precisão em Elegibilidade de Garantias Automatizada

O Deutsche Bundesbank substituiu um pipeline frágil de Named Entity Recognition por um stack LLM generativo para triagem de elegibilidade de garantias de valores mobiliários, publicando o primeiro estudo de caso de exame regulatório baseado em LLM em um banco central. O artigo, coautorizado por pesquisadores afiliados ao Bundesbank da Universidade Anhalt de Ciências Aplicadas e postado em 25 de junho de 2026, alcança 91% de precisão em decisões de elegibilidade em nível de documento e é ajustado para rejeitar falsos positivos em vez de perder valores mobiliários válidos.

Sob as regras do Eurossistema do BCE, toda transação de crédito do Bundesbank requer respaldo de garantia elegível. Seis critérios devem ser todos atendidos: moeda (EUR, USD, GBP ou JPY), tipo de instrumento, principal fixo, resgate completo no vencimento, estrutura de cupom permitida e status não-subordinado. Milhares de valores mobiliários são emitidos anualmente como prospectos em PDF que contêm centenas de páginas, são semi-estruturados e frequentemente intercalam alemão e inglês em colunas paralelas.

O antigo sistema NER baseado em Transformer funcionava em texto limpo, mas tinha três responsabilidades de produção: exigia anotação manual para cada novo tipo, limites de span quebravam sob artefatos de OCR e não tinha mecanismo de comutação de idioma. A entrada de OCR garbled alemão-inglês degradava a precisão.

O novo pipeline extrai, normaliza e interpreta—zero-shot, sem fine-tuning. A inferência é executada em Llama-3.3-70B-Instruct e Cohere Command-R 08-2024. Uma instância separada de Mistral Small 3.1 atua como juiz. A avaliação substitui correspondência de span baseada em localização por pontuação LLM-as-a-judge que avalia correção semântica em vez de sobreposição de tokens, tornando-a resistente ao ruído de OCR que quebrou o sistema NER.

Os seis critérios se dividem em dois níveis. Os primeiros quatro ("simples") extraem uma entidade por critério: moeda, classe de instrumento, estrutura de principal, termos de resgate. Os últimos dois ("complexos")—estrutura de cupom e status de subordinação—exigem árvores de decisão entre múltiplas entidades extraídas mais dados mestres externos. A camada de árvore de decisão fica acima do estágio de extração generativa, não dentro dela.

A figura de 91% cobre elegibilidade binária em nível de documento: o prospecto passa em todos os seis critérios? O sistema funciona de forma conservadora, ajustado para minimizar aceitação falsa. Os erros tendem para rejeitar incorretamente um valor mobiliário válido em vez de passar um inelegível—deliberado em gestão de garantias, onde um falso negativo desperdiça o tempo do analista enquanto um falso positivo expõe o banco central a risco financeiro.

Não reportado: números de recall para critérios complexos de cupom e status em nível de campo, latência ou custo por documento em escala de produção. O método LLM-as-a-judge introduz um segundo ponto de falha—Mistral Small 3.1 avaliando saídas de Llama-3.3-70B—e a calibração entre os dois não é publicada. Equipes adotando este padrão devem tratar 91% como um teto em entrada OCR limpa, não um piso.

Modelos zero-shot de classe 70B com pipelines estruturados multi-estágios podem substituir NER pesada em anotação para extração de documentos de alto risco. A camada de interpretação de árvore de decisão ainda fica fora do modelo, e seu equipamento de avaliação é ele próprio um LLM que você precisa validar.

Sources

LLM-based systems achieve up to 91% precision in document-level eligibility determination at the Deutsche Bundesbank
"Our results demonstrate that LLM-based systems achieve high precision (up to 91%) in document-level eligibility, exhibiting a conservative operating profile that minimizes false acceptance."
arxiv.org ↗
The pipeline uses Llama-3.3-70B-Instruct and Cohere Command-R 08-2024 for inference, with Mistral Small 3.1 Instruct as the LLM judge
"our study focuses on the zero-shot and instruction-following capabilities of high-performance general-purpose models: Llama-3.3-70B-Instruct and Cohere Command-R 08-2024 for inference, and Mistral Small 3.1 Instruct for evaluation"
arxiv.org ↗
The task decomposes into six eligibility criteria — currency, instrument type, principal amount, redemption at maturity, coupon structure, and subordination status — all of which must be satisfied
"eligibility is determined by 6 criteria, all of which must be fulfilled for the prospectus to be eligible"
arxiv.org ↗
The prior NER-based system required extensive manual annotation and was fragile under OCR artifacts and rigid span boundaries
"that approach introduced several constraints, primarily: it required extensive manual annotation to provide necessary supervision for all relevant annotation types, and the resulting models were sensitive to the rigid boundaries of text spans (which made them fragile when encountering OCR artifacts or financial language different from its training set)"
arxiv.org ↗
The new pipeline replaces location-based span metrics with a value-based LLM-as-a-judge evaluation resistant to OCR noise
"Introducing a value-based evaluation methodology using LLM-as-a-judge, resistant to OCR noise and linguistic variance"
arxiv.org ↗
Prospectuses are PDF files that can run hundreds of pages, are semi-structured, and frequently bilingual with German and English interleaved or in parallel columns
"Prospectuses can be bilingual, with English or German interleaved or presented in parallel columns, requiring models that are robust to language switching"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Bundesbank Atinge 91% de Precisão em Elegibilidade de Garantias Automatizada

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.