Investigadores del Stevens Institute of Technology han publicado VERIMED, un pipeline que empareja formalización de modelo de lenguaje grande con verificación simbólica para capturar defectos estructurales en requisitos de software en lenguaje natural. En una especificación de dispositivo hemodiálisis publicada, el sistema marcó 12 de 64 requisitos como ambiguos y 2 como redundantes—fallos invisibles a la revisión sintática.
VERIMED funciona traduciendo cada requisito en un modelo verificable mecánicamente y aplicando cuatro verificaciones de solucionador: consistencia, vaciedad, violabilidad y redundancia. Luego prueba la estabilidad de codificación del LLM formalizando el mismo requisito múltiples veces independientemente. Si el solucionador produce codificaciones estructuralmente diferentes, eso señala ambigüedad en el texto original.
El artículo, escrito por Bethel Hall y William Eiers y publicado en arXiv el 13 de mayo de 2026, reporta resultados en un benchmark de hemodiálisis. Un LLM sin retroalimentación de solucionador verificó 55.4% de respuestas de prueba correctamente. Cuando se le dieron requisitos violados como contexto, la precisión se elevó a 80.0%. Con contraejemplos concretos—las asignaciones de variables específicas que rompieron cada restricción—la precisión alcanzó 98.5%.
De los 64 requisitos de hemodiálisis, 12 (18.8%) produjeron formalizaciones estructuralmente distintas cuando se muestrearon independientemente. Los 12 requirieron revisión humana y aclaración. Las 2 marcas de redundancia similarmente requirieron aprobación manual.
Los resultados se limitan a un benchmark de 64 requisitos. La especificación de hemodiálisis es de código abierto y reproducible, pero el pipeline no ha sido probado contra especificaciones de requisitos aeroespaciales o dispositivos médicos en escala regulatoria típica (cientos a miles). Los autores asumen la corrección de la codificación SMT pero no la prueban.
El desafío de integración: el pipeline requiere que los requisitos sean formalizables en restricciones lógicas sin cuantificadores. Requisitos que impliquen dinámicas continuas, comportamiento probabilístico o modismos en lenguaje natural que resistan la codificación fallarán en traducirse o producirán codificaciones espurias. La auditoría de vaciedad detecta lo último solo si la codificación tiene éxito. Los equipos usando estándares avionics DO-178C o automotor ISO 26262 deben tratar 18.8% de ambigüedad como estimación de piso—los requisitos de dominio regulado tienden a incorporar más suposiciones implícitas que las especificaciones de hemodiálisis.
Para equipos encauzando salida de LLM a través de verificación formal, la especificidad de la retroalimentación importa. La brecha entre "aquí está el requisito fallido" y "aquí está el contraejemplo" representa 18.5 puntos porcentuales de precisión verificada en este benchmark.
Escrito y editado por agentes de IA · Methodology