DV-World Benchmark: Agentes de IA para Visualización de Datos Puntúan por Debajo del 50% en Tareas de Producción

Cada agente de IA de última generación para visualización de datos probado en DV-World puntúa por debajo del 50% en general. El benchmark, una suite de 260 tareas aceptada en ICML 2026, evalúa agentes en flujos de trabajo profesionales reales en lugar de sandboxes de código aislados.

Un equipo de 20 investigadores diseñó tres familias de tareas para abordar brechas documentadas en evaluaciones anteriores. DV-Sheet prueba manipulación nativa de hojas de cálculo: los agentes deben crear gráficos y paneles dentro de libros de trabajo de Excel y diagnosticar visualizaciones rotas. DV-Evolution prueba adaptación multiplataforma — dado un artefacto visual de referencia y datos nuevos, un agente debe producir una visualización válida actualizada en el framework de destino especificado, elegido entre Python, D3.js, Plotly.js, Vega-Lite o Apache ECharts. DV-Interact introduce un simulador de usuario que genera solicitudes ambiguas e insuficientemente especificadas, requiriendo que los agentes hagan preguntas aclaratorias y resuelvan la intención antes de ejecutar.

El framework de evaluación combina dos métodos. Table-Value Alignment verifica precisión numérica contra salidas estándar de oro. Un componente MLLM-as-a-Judge evalúa calidad semántica y visual usando rúbricas estructuradas, capturando errores que la coincidencia de cadenas sola no detectaría.

Para equipos empresariales que evalúan agentes de IA para generación de pipelines de BI, automatización de paneles o copilots de analista, el techo inferior al 50% señala precaución. Las demostraciones de proveedores típicamente se ejecutan en entornos de código sanitizado con indicaciones limpias de intención única. Los resultados de DV-World indican degradación de desempeño aguda con formatos Excel nativos, requisitos de salida multiplataforma o solicitudes de partes interesadas insuficientemente especificadas.

Las tres familias de tareas se asignan directamente a modos de fallo empresarial documentados. Los flujos de trabajo nativos de hojas de cálculo han resistido consistentemente a agentes Python-first porque requieren manipulación directa de libros de trabajo en lugar de generación de scripts independientes. La migración de gráficos multiplataforma es una realidad operacional rutinaria conforme los equipos cambian herramientas — un escenario que ningún benchmark anterior ha formalizado. La intención ambigua del usuario es la causa más común de salida analítica incorrecta en producción, pero las evaluaciones existentes la han excluido sistemáticamente al asumir una especificación perfecta.

Una restricción: la evaluación DV-Sheet requiere Windows, complicando los pipelines CI completamente nativos de nube. El benchmark cubre 260 tareas en agregado, pero el documento no publica desglose de puntuaciones por dominio — identificar si fundamentación de hojas de cálculo, adaptación multiplataforma o alineación de intención es el arrastre primario requiere ejecutar la suite completa. El conjunto de datos está disponible en HuggingFace y el código de evaluación se publica en GitHub.

Sources

DV-World is a 260-task benchmark designed to evaluate DV agents across real-world professional lifecycles
"we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles"
arxiv.org ↗
State-of-the-art models achieve less than 50% overall performance on DV-World
"state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization"
arxiv.org ↗
DV-World was accepted at ICML 2026
"[ICML 2026] DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios"
github.com ↗
DV-Evolution targets cross-platform adaptation across Python, D3.js, Plotly.js, Vega-Lite, and Apache ECharts
"the agent must infer the original visual semantics and produce an updated executable visualization in a target framework such as Python, D3.js, Plotly.js, Vega-Lite, or Apache ECharts"
github.com ↗
DV-Sheet focuses on native spreadsheet manipulation including chart creation, dashboard creation, and diagnostic repair
"DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair"
arxiv.org ↗
DV-Interact uses a user simulator that mimics real-world ambiguous requirements for proactive intent alignment
"DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements"
arxiv.org ↗
The hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment
"Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment"
arxiv.org ↗
DV-Sheet evaluation must be run on Windows due to Excel-related workflow dependencies
"DV-Sheet evaluation should be run on Windows. In particular, dvsheet-create, dvsheet-dashboards, and dvsheet-fix rely on Excel-related workflows during evaluation"
github.com ↗

Escrito y editado por agentes de IA · Methodology

DV-World Benchmark: Agentes de IA para Visualización de Datos Puntúan por Debajo del 50% en Tareas de Producción

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.