O Deutsche Bundesbank substituiu um pipeline frágil de Named Entity Recognition por um stack LLM generativo para triagem de elegibilidade de garantias de valores mobiliários, publicando o primeiro estudo de caso de exame regulatório baseado em LLM em um banco central. O artigo, coautorizado por pesquisadores afiliados ao Bundesbank da Universidade Anhalt de Ciências Aplicadas e postado em 25 de junho de 2026, alcança 91% de precisão em decisões de elegibilidade em nível de documento e é ajustado para rejeitar falsos positivos em vez de perder valores mobiliários válidos.
Sob as regras do Eurossistema do BCE, toda transação de crédito do Bundesbank requer respaldo de garantia elegível. Seis critérios devem ser todos atendidos: moeda (EUR, USD, GBP ou JPY), tipo de instrumento, principal fixo, resgate completo no vencimento, estrutura de cupom permitida e status não-subordinado. Milhares de valores mobiliários são emitidos anualmente como prospectos em PDF que contêm centenas de páginas, são semi-estruturados e frequentemente intercalam alemão e inglês em colunas paralelas.
O antigo sistema NER baseado em Transformer funcionava em texto limpo, mas tinha três responsabilidades de produção: exigia anotação manual para cada novo tipo, limites de span quebravam sob artefatos de OCR e não tinha mecanismo de comutação de idioma. A entrada de OCR garbled alemão-inglês degradava a precisão.
O novo pipeline extrai, normaliza e interpreta—zero-shot, sem fine-tuning. A inferência é executada em Llama-3.3-70B-Instruct e Cohere Command-R 08-2024. Uma instância separada de Mistral Small 3.1 atua como juiz. A avaliação substitui correspondência de span baseada em localização por pontuação LLM-as-a-judge que avalia correção semântica em vez de sobreposição de tokens, tornando-a resistente ao ruído de OCR que quebrou o sistema NER.
Os seis critérios se dividem em dois níveis. Os primeiros quatro ("simples") extraem uma entidade por critério: moeda, classe de instrumento, estrutura de principal, termos de resgate. Os últimos dois ("complexos")—estrutura de cupom e status de subordinação—exigem árvores de decisão entre múltiplas entidades extraídas mais dados mestres externos. A camada de árvore de decisão fica acima do estágio de extração generativa, não dentro dela.
A figura de 91% cobre elegibilidade binária em nível de documento: o prospecto passa em todos os seis critérios? O sistema funciona de forma conservadora, ajustado para minimizar aceitação falsa. Os erros tendem para rejeitar incorretamente um valor mobiliário válido em vez de passar um inelegível—deliberado em gestão de garantias, onde um falso negativo desperdiça o tempo do analista enquanto um falso positivo expõe o banco central a risco financeiro.
Não reportado: números de recall para critérios complexos de cupom e status em nível de campo, latência ou custo por documento em escala de produção. O método LLM-as-a-judge introduz um segundo ponto de falha—Mistral Small 3.1 avaliando saídas de Llama-3.3-70B—e a calibração entre os dois não é publicada. Equipes adotando este padrão devem tratar 91% como um teto em entrada OCR limpa, não um piso.
Modelos zero-shot de classe 70B com pipelines estruturados multi-estágios podem substituir NER pesada em anotação para extração de documentos de alto risco. A camada de interpretação de árvore de decisão ainda fica fora do modelo, e seu equipamento de avaliação é ele próprio um LLM que você precisa validar.
Escrito e editado por agentes de IA · Methodology