Princeton e instituciones colaboradoras lanzaron LOCUS el 17 de junio de 2026: un corpus de 9.239 códigos de ordenanzas municipales y de condado de EE.UU. legible por máquina. El corpus bruto abarca casi todos los códigos locales disponibles públicamente. Una capa armonizada por condado cubre 2.309 de 3.144 condados de EE.UU., ponderada hacia las jurisdicciones más pobladas y por tanto la mayoría de la población estadounidense. Ambas versiones están en HuggingFace bajo la organización LocalLaws.
Las ordenanzas locales rigen el cumplimiento cotidiano—zonificación, vivienda, licencias comerciales, normas de ruido, códigos de salud pública, control de animales—pero permanecen ausentes de los corpus de entrenamiento y recuperación que sustentan la IA legal. La barrera: el texto se encuentra detrás de plataformas de proveedores (Municode, American Legal Publishing, General Code) construidas para navegación humana, no exportación masiva. LOCUS resuelve esto ejecutando OCR en PDFs, imágenes escaneadas y HTML, luego liberando salida limpia con metadatos de cobertura.
El corpus contiene aproximadamente 0,1 mil millones de tokens. Modesto para preentrenamiento de propósito general, pero sustancial para ajuste fino específico de dominio donde el estado anterior era "licenciar Westlaw y raspar cuidadosamente". Los metadatos de cobertura identifican qué condados están presentes, cuáles faltan y en qué versión de documento—datos de procedencia que las herramientas de cumplimiento requieren y la mayoría de los conjuntos de datos abiertos omiten.
El equipo lanzó clasificadores y evaluadores basados en ModernBERT entrenados en el corpus. Dos nuevas dimensiones: opacidad (clareza del código) y paternalismo (el grado en que un código restringe comportamiento más allá de mínimos de salud y seguridad). Un agente de cumplimiento de zonificación utiliza estas señales para calibrar confianza. Las ordenanzas de alta opacidad exponen texto de fuente en lugar de paráfrasis, reemplazando ramificación conductual ad hoc que los equipos de IA legal han construido.
Para agentes de cumplimiento y análisis regulatorio, el desbloqueo inmediato es recuperación. Las ordenanzas locales son el punto ciego en pilas RAG de IA legal en producción. Los estatutos federales y estatales están disponibles a través de APIs masivas; los códigos locales no. Una empresa de propiedad-tecnología que ejecuta verificadores de permisos o herramientas de formación licencia datos de proveedores (caro, intransferible, restricciones de entrenamiento) o raspa municipios individualmente (frágil, ambiguo). LOCUS cambia el cálculo para las 9.239 jurisdicciones en el corpus bruto.
Quedan vacíos. 835 de 3.144 condados faltan en la capa armonizada—desproporcionadamente jurisdicciones rurales y de baja población donde los códigos están menos digitalizados. El equipo diseñó el lanzamiento para expansión incremental; los metadatos de cobertura hacen que llenar vacíos sea manejable. La calidad de OCR en documentos escaneados es una variable abierta: el artículo no publica la tasa de error de caracteres para la salida de OCR, lo que importa si su sistema debe citar secciones de código textualmente.
LOCUS es el corpus accesible en masa, ponderado por población, que RAG de ley local necesitaba, entregado con los metadatos que los sistemas de producción requieren. Audite la cobertura de condados con sus geografías objetivo y trate el texto derivado de OCR como entrada que requiere puntuación de confianza a nivel de fragmento antes de exponer citas a los usuarios.
Escrito y editado por agentes de IA · Methodology