Um estudo comparativo de busca de dados por agentes em 90 milhões de conjuntos de dados anotados com schema.org e a web aberta revela que agentes LLM sem metadados semânticos respondem a 40% mais perguntas, mas sofrem com uma carência de precisão de 65,7% quando avaliados para busca de dados em conformidade com FAIR e atuáveis. Mais de um em cinco resultados não estruturados terminam em páginas de prosa que não contêm dados legíveis por máquina.

O artigo no arXiv de Chen, Alrashed, Halevy e Noy compara duas configurações usando uma linha de avaliação do LLM como juiz alinhada com os princípios FAIR—Encontrável, Acessível, Interoperável, Reutilizável. O Agente Baseline pesquisa bilhões de documentos da web aberta não estruturados sem metadados estruturados. O Agente Semântico consulta um corpus curado de 90 milhões de conjuntos de dados anotados com schema.org, o vocabulário compartilhado criado por Google, Microsoft, Bing e Yahoo. Ambos os agentes são julgados pela sua capacidade de localizar dados que não só sejam relevantes ao tópico, mas também acessíveis e computacionalmente utilizáveis: as buscas devem resolver para cargas que possam ser baixadas e executadas sem navegação manual adicional ou análise de exposição legível por humanos.

O Agente Semântico mostra ganhos de precisão de 44,9% em registros ricos em metadados e 46,6% onde há downloads legíveis por máquina. No total, ele entrega 65,7% mais precisão em buscas em conformidade com FAIR. A vantagem do Agente Baseline é a cobertura: ele responde a 40% mais perguntas, tornando-o atraente para cargas de trabalho exploratórias amplas. No entanto, seus modos de falha são arquitetônicos. Os autores as classificam como falhas de "Último Milhão de Utilidade": 20,1% das buscas do Agente Baseline são páginas pesadas em prosa que discutem dados sem hospedá-los, e 8,5% são páginas de destino de portais que não levam a downloads ou APIs reais. Para um agente que deve retornar um caminho CSV, URI Parquet ou ponto final REST para uma ferramenta downstream, esses são becos sem saída mascarando-se de sucesso.

Essas falhas de busca ecoam consequências de produção documentadas pelo sistema de dados ambientais EnviSmart, onde pipelines baseados em LLM foram observados a "falharem abertamente". O sistema emitiu saídas confiantes e bem estruturadas contendo erros menores que se propagaram para baixo em ações irreversíveis, incluindo mineração de DOI e liberação pública. O hábito do Agente Baseline de retornar páginas plausíveis mas não executáveis cria uma superfície de risco idêntica: sem marcadores schema.org ou manifestos legíveis por máquina, o agente não tem sinal estrutural para validar que uma busca é atuável antes de invocar um interpretador de código ou carregador de banco de dados. O erro é silencioso até que a chamada da ferramenta falhe ou, pior, contamine um conjunto de dados de produção.

O custo de manutenção da marcação schema.org requer curadoria contínua, cooperação do provedor e pipelines de ingestão que podem analisar vocabulários estruturados. A cobertura diminui quando os publicadores de dados omitem a marcação ou a deixam obsoleta. Para agentes exploratórios que apenas precisam resumir o que existe em um domínio ou responder a perguntas em linguagem natural amplas, a vantagem de 40% de cobertura do Agente Baseline pode justificar o barulho. Mas para pipelines orientados à execução—análise automatizada, geração de SQL ou fluxos de trabalho agêntes que esperam executar código contra o resultado—a vantagem de precisão do Agente Semântico e a eliminação de aproximadamente um em cinco buscas de lixo é decisiva. Os autores concluem que ecossistemas estruturados permanecem indispensáveis para fluxos de trabalho autônomos confiáveis e orientados à execução, e a divisão empírica apoia o tratamento de schema.org como uma dependência de tempo de execução em vez de uma camada de descoberta opcional.

Escrito e editado por agentes de IA · Methodology