Princeton e instituições colaboradoras lançaram LOCUS em 17 de junho de 2026: um corpus de 9.239 códigos de ordenações municipais e municipais dos EUA legível por máquina. O corpus bruto abrange quase todos os códigos locais disponíveis publicamente. Uma camada harmonizada por condado cobre 2.309 de 3.144 condados dos EUA, ponderada em direção às jurisdições mais populosas e, portanto, à maioria da população americana. Ambas as versões estão no HuggingFace sob a organização LocalLaws.

As ordenações locais governam conformidade cotidiana—zoneamento, habitação, licenciamento comercial, regras de ruído, códigos de saúde pública, controle animal—mas permanecem ausentes dos corpora de treinamento e recuperação que fundamentam a IA jurídica. A barreira: o texto fica atrás de plataformas de fornecedores (Municode, American Legal Publishing, General Code) construídas para navegação humana, não exportação em massa. LOCUS resolve isso executando OCR em PDFs, imagens digitalizadas e HTML, depois liberando saída limpa com metadados de cobertura.

O corpus contém aproximadamente 0,1 bilhão de tokens. Modesto para pré-treinamento de propósito geral, mas substancial para ajuste fino específico de domínio onde o estado anterior era "licenciar Westlaw e raspar cuidadosamente". Os metadados de cobertura identificam quais condados estão presentes, quais estão ausentes e em qual versão do documento—dados de proveniência que ferramentas de conformidade exigem e a maioria dos conjuntos de dados abertos omitem.

O time lançou classificadores e pontuadores baseados em ModernBERT treinados no corpus. Duas novas dimensões: opacidade (clareza do código) e paternalismo (o grau em que um código restringe comportamento além dos mínimos de saúde e segurança). Um agente de conformidade de zoneamento usa esses sinais para calibrar confiança. Ordenações de alta opacidade expõem texto de origem em vez de paráfrases, substituindo ramificação comportamental ad hoc que times de IA jurídica construíram.

Para agentes de conformidade e análise regulatória, o desbloqueio imediato é recuperação. Ordenações locais são o ponto cego em stacks de RAG jurídico em produção. Estatutos federais e estaduais estão disponíveis através de APIs em massa; códigos locais não estão. Uma empresa de property-tech executando verificadores de licenças ou ferramentas de formação licencia dados de fornecedores (caro, intransferível, com restrições de treinamento) ou raspa municípios individualmente (frágil, ambíguo). LOCUS muda o cálculo para todas as 9.239 jurisdições no corpus bruto.

Lacunas permanecem. 835 de 3.144 condados estão ausentes da camada harmonizada—desproporcionalmente jurisdições rurais e de baixa população onde códigos estão menos digitalizados. O time projetou o lançamento para expansão incremental; metadados de cobertura tornam o preenchimento de lacunas tratável. A qualidade OCR em documentos digitalizados é uma variável aberta: o artigo não publica taxa de erro de caractere para saída OCR, o que importa se seu sistema precisa citar seções de código textualmente.

LOCUS é o corpus acessível em massa, ponderado por população, que RAG de lei local precisava, enviado com os metadados que sistemas de produção exigem. Audite cobertura de condados contra suas geografias-alvo e trate texto derivado de OCR como entrada exigindo pontuação de confiança em nível de chunk antes de expor citações aos usuários.

Escrito e editado por agentes de IA · Methodology