Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança

Pesquisa demonstra que LLMs emparelhados com solucionadores SMT podem detectar automaticamente ambiguidade, inconsistência e subspecificação em requisitos em linguagem natural—crítico para aeroespacial, dispositivos médicos e outros domínios regulados onde erros de especificação se propagam em código inseguro.

Pesquisadores do Stevens Institute of Technology publicaram VERIMED, um pipeline que emparelha formalização de modelo de linguagem grande com verificação simbólica para capturar defeitos estruturais em requisitos de software em linguagem natural. Em uma especificação de dispositivo hemodiálise publicada, o sistema sinalizou 12 de 64 requisitos como ambíguos e 2 como redundantes—falhas invisíveis à revisão sintática.

VERIMED funciona traduzindo cada requisito em um modelo verificável mecanicamente e aplicando quatro verificações de solucionador: consistência, vacuidade, violabilidade e redundância. Depois testa a estabilidade da codificação do LLM formalizando o mesmo requisito várias vezes independentemente. Se o solucionador produz codificações estruturalmente diferentes, isso sinaliza ambiguidade no texto original.

O artigo, de autoria de Bethel Hall e William Eiers e postado no arXiv em 13 de maio de 2026, relata resultados em um benchmark de hemodiálise. Um LLM recebendo nenhum feedback de solucionador verificou 55.4% das respostas de teste corretamente. Quando dado requisitos violados como contexto, a precisão subiu para 80.0%. Com contraexemplos concretos—as atribuições de variáveis específicas que quebraram cada restrição—a precisão atingiu 98.5%.

Dos 64 requisitos de hemodiálise, 12 (18.8%) produziram formalizações estruturalmente distintas quando amostrados independentemente. Todos os 12 exigiram revisão humana e esclarecimento. Os 2 sinalizadores de redundância similarmente exigiram aprovação manual.

Os resultados são limitados a um benchmark de 64 requisitos. A especificação de hemodiálise é código aberto e reproduzível, mas o pipeline não foi testado contra especificações de requisitos de aeroespacial ou dispositivo médico da escala típica regulatória (centenas a milhares). Os autores assumem a correção da codificação SMT mas não a provam.

O desafio de integração: o pipeline exige que os requisitos sejam formalizáveis em restrições lógicas sem quantificadores. Requisitos envolvendo dinâmica contínua, comportamento probabilístico ou idiomas em linguagem natural que resistem à codificação vão falhar em traduzir ou produzir codificações espúrias. A auditoria de vacuidade captura o último apenas se a codificação sucede. Equipes usando padrões avionics DO-178C ou automotivo ISO 26262 devem tratar 18.8% de ambiguidade como estimativa de piso—requisitos de domínio regulado tendem a incorporar mais suposições implícitas do que especificações de hemodiálise.

Para equipes roteando saída de LLM através de verificação formal, a especificidade do feedback importa. A lacuna entre "aqui está o requisito falhando" e "aqui está o contraexemplo" corresponde a 18.5 pontos percentuais de precisão verificada neste benchmark.

Sources

VERIMED flags 12 of 64 requirements as ambiguous and 2 as redundant on hemodialysis specification
"the audits flagged 2 of 64 requirements as redundant ... the procedure flagged 12 of 64 requirements (18.8%) as producing multiple distinct encodings"
arxiv.org ↗
No solver feedback yields 55.4% verified accuracy; violated requirements as context raises it to 80.0%; concrete SMT counterexample raises it to 98.5%
"using the violated requirements as feedback alone raises verified accuracy from 55.4% (no feedback) to 80.0%; providing an SMT counterexample as additional feedback raises accuracy to 98.5%"
arxiv.org ↗
All 12 ambiguous requirements converged to a single encoding after clarification
"all 12 converged to a single encoding after clarification"
arxiv.org ↗
VERIMED performs four SMT audits: global consistency, vacuousness, violatability, and redundancy
"We formulate four requirement-level SMT audits — global consistency, vacuousness, violatability, and redundancy — that operationalize established requirement-quality criteria."
arxiv.org ↗
Ambiguity is detected by sampling multiple independent formalizations and running bidirectional SMT equivalence checking across them
"detecting ambiguity through stochastic variation in the generated formalization ... bidirectional SMT equivalence checking turns this disagreement into a solver-checkable test"
arxiv.org ↗
VERIMED was authored by Bethel Hall and William Eiers at Stevens Institute of Technology and posted to arXiv on May 13 2026
"Bethel Hall Stevens Institute of Technology bhall2@stevens.edu & William Eiers Stevens Institute of Technology weiers@stevens.edu"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.