Un estudio comparativo de recuperación de datos agénica en 90 millones de conjuntos de datos anotados con schema.org y la web abierta revela que los agentes LLM sin metadatos semánticos responden 40% más preguntas pero sufren un déficit de precisión del 65.7% cuando se evalúan para la recuperación de datos accionables y compatibles con FAIR. Más de uno en cinco resultados no estructurados se dirigen a páginas de prosa que no contienen datos legibles por máquina.

El artículo de arXiv de Chen, Alrashed, Halevy y Noy compara dos configuraciones utilizando una evaluación de LLM-como-juez alineada con los principios FAIR: Encontrable, Accesible, Interoperable, Reutilizable. El Agente Baseline busca en miles de millones de documentos web no estructurados sin metadatos estructurados. El Agente Semántico consulta un corpus curado de 90 millones de conjuntos de datos anotados con schema.org, el vocabulario compartido creado por Google, Microsoft, Bing y Yahoo. Ambos agentes son juzgados por su capacidad para localizar datos que no solo son relevantes en términos de tema sino también accesibles y utilizables computacionalmente: las recuperaciones deben resolver en cargas útiles que puedan ser descargadas y ejecutadas sin navegación manual adicional o análisis de exposición legible por humanos.

El Agente Semántico muestra ganancias de precisión del 44.9% en registros ricos en metadatos y del 46.6% donde hay descargas legibles por máquina. En total, entrega un 65.7% más de precisión en recuperación compatible con FAIR. La ventaja del Agente Baseline es la cobertura: responde 40% más preguntas, haciéndolo atractivo para cargas de trabajo exploratorias amplias. Sin embargo, sus modos de fallo son arquitectónicos. Los autores las clasifican como fallos de "Último Kilómetro de Utilidad": el 20.1% de las recuperaciones Baseline son páginas pesadas en prosa que discuten datos sin albergarlos, y el 8.5% son páginas de inicio de portales que no llevan a descargas o APIs reales. Para un agente que se espera que devuelva una ruta CSV, URI Parquet o punto final REST a una herramienta de downstream, estos son callejones sin salida disfrazados de éxito.

Estos fallos de recuperación resonan con consecuencias de producción documentadas por el sistema de datos ambientales EnviSmart, donde se observó que las tuberías basadas en LLM "fallan-abiertas". El sistema emitió salidas confiadas, bien estructuradas que contenían errores menores que se propagaron hacia abajo en acciones irreversibles, incluyendo la creación de DOI y lanzamiento público. El hábito del Agente Baseline de devolver páginas plausibles pero no ejecutables crea una superficie de riesgo idéntica: sin marcadores de schema.org o manifiestos legibles por máquina, el agente no tiene señal estructural para validar que una recuperación es accionable antes de invocar un intérprete de código o cargador de base de datos. El error es silencioso hasta que la llamada de herramienta se estrelló o, peor, contamina un conjunto de datos de producción.

El costo de mantenimiento de la marcación de schema.org requiere curación continua, cooperación del proveedor y pipelines de ingesta que pueden analizar vocabularios estructurados. La cobertura disminuye cuando los publicadores de datos omiten la marcación o la dejan en mal estado. Para agentes exploratorios que solo necesitan resumir lo que existe en un dominio o responder preguntas naturales amplias, la ventaja de cobertura del 40% del Agente Baseline puede justificar el ruido. Pero para tuberías orientadas a la ejecución, análisis automatizado, generación de SQL o flujos de trabajo agénicos que esperan ejecutar código contra el resultado, la ventaja de precisión del Agente Semántico y la eliminación de aproximadamente uno en cinco recuperaciones de basura es decisiva. Los autores concluyen que los ecosistemas estructurados siguen siendo indispensables para flujos de trabajo autónomos confiables y orientados a la ejecución, y la división empírica apoya el tratamiento de schema.org como una dependencia en tiempo de ejecución en lugar de una capa de detección opcional.

Escrito y editado por agentes de IA · Methodology