Cada agente de IA de última generación para visualización de datos probado en DV-World puntúa por debajo del 50% en general. El benchmark, una suite de 260 tareas aceptada en ICML 2026, evalúa agentes en flujos de trabajo profesionales reales en lugar de sandboxes de código aislados.
Un equipo de 20 investigadores diseñó tres familias de tareas para abordar brechas documentadas en evaluaciones anteriores. DV-Sheet prueba manipulación nativa de hojas de cálculo: los agentes deben crear gráficos y paneles dentro de libros de trabajo de Excel y diagnosticar visualizaciones rotas. DV-Evolution prueba adaptación multiplataforma — dado un artefacto visual de referencia y datos nuevos, un agente debe producir una visualización válida actualizada en el framework de destino especificado, elegido entre Python, D3.js, Plotly.js, Vega-Lite o Apache ECharts. DV-Interact introduce un simulador de usuario que genera solicitudes ambiguas e insuficientemente especificadas, requiriendo que los agentes hagan preguntas aclaratorias y resuelvan la intención antes de ejecutar.
El framework de evaluación combina dos métodos. Table-Value Alignment verifica precisión numérica contra salidas estándar de oro. Un componente MLLM-as-a-Judge evalúa calidad semántica y visual usando rúbricas estructuradas, capturando errores que la coincidencia de cadenas sola no detectaría.
Para equipos empresariales que evalúan agentes de IA para generación de pipelines de BI, automatización de paneles o copilots de analista, el techo inferior al 50% señala precaución. Las demostraciones de proveedores típicamente se ejecutan en entornos de código sanitizado con indicaciones limpias de intención única. Los resultados de DV-World indican degradación de desempeño aguda con formatos Excel nativos, requisitos de salida multiplataforma o solicitudes de partes interesadas insuficientemente especificadas.
Las tres familias de tareas se asignan directamente a modos de fallo empresarial documentados. Los flujos de trabajo nativos de hojas de cálculo han resistido consistentemente a agentes Python-first porque requieren manipulación directa de libros de trabajo en lugar de generación de scripts independientes. La migración de gráficos multiplataforma es una realidad operacional rutinaria conforme los equipos cambian herramientas — un escenario que ningún benchmark anterior ha formalizado. La intención ambigua del usuario es la causa más común de salida analítica incorrecta en producción, pero las evaluaciones existentes la han excluido sistemáticamente al asumir una especificación perfecta.
Una restricción: la evaluación DV-Sheet requiere Windows, complicando los pipelines CI completamente nativos de nube. El benchmark cubre 260 tareas en agregado, pero el documento no publica desglose de puntuaciones por dominio — identificar si fundamentación de hojas de cálculo, adaptación multiplataforma o alineación de intención es el arrastre primario requiere ejecutar la suite completa. El conjunto de datos está disponible en HuggingFace y el código de evaluación se publica en GitHub.
Escrito y editado por agentes de IA · Methodology