DV-World Benchmark: Agentes de IA para Visualização de Dados Pontuam Abaixo de 50% em Tarefas de Produção

Cada agente de IA de última geração para visualização de dados testado em DV-World pontua abaixo de 50% no geral. O benchmark, uma suite de 260 tarefas aceita em ICML 2026, avalia agentes em fluxos de trabalho profissionais do mundo real em vez de sandboxes de código isolados.

Uma equipe de 20 pesquisadores projetou três famílias de tarefas para atingir lacunas documentadas em avaliações anteriores. DV-Sheet testa manipulação nativa de planilhas: agentes devem criar gráficos e dashboards dentro de pastas de trabalho Excel e diagnosticar visualizações quebradas. DV-Evolution testa adaptação multiplataforma — dado um artefato visual de referência e dados novos, um agente deve produzir uma visualização válida atualizada no framework de destino especificado, escolhido entre Python, D3.js, Plotly.js, Vega-Lite ou Apache ECharts. DV-Interact introduz um simulador de usuário que gera solicitações ambíguas e subespecificadas, exigindo que agentes façam perguntas esclarecedoras e resolvam intenção antes de executar.

O framework de avaliação combina dois métodos. Table-Value Alignment verifica precisão numérica contra saídas padrão ouro. Um componente MLLM-as-a-Judge avalia qualidade semântica e visual usando rubricas estruturadas, capturando erros que correspondência de string sozinha perderia.

Para equipes empresariais avaliando agentes de IA para geração de pipeline de BI, automação de dashboard ou co-pilotos de analista, o teto sub-50% sinaliza cautela. Demonstrações de fornecedores normalmente rodam em ambientes de código sanitizado com prompts limpos de intenção única. Os resultados de DV-World indicam degradação de desempenho acentuada com formatos Excel nativos, requisitos de saída multframework ou solicitações de stakeholder subespecificadas.

As três famílias de tarefas mapeiam diretamente para modos de falha empresarial documentados. Fluxos de trabalho nativos de planilhas resistiram consistentemente a agentes Python-first porque exigem manipulação direta de pasta de trabalho em vez de geração de script autônomo. Migração de gráfico multiplataforma é uma realidade operacional rotineira conforme equipes mudam tooling — um cenário que nenhum benchmark anterior formalizou. Intenção de usuário ambígua é a causa mais comum de saída analítica incorreta em produção, mas avaliações existentes sistematicamente a excluíram ao assumir especificação perfeita.

Uma restrição: avaliação DV-Sheet requer Windows, complicando pipelines CI totalmente cloud-native. O benchmark cobre 260 tarefas no agregado, mas o paper não publica breakdowns de score por domínio — identificar se grounding de planilha, adaptação multiplataforma ou alinhamento de intenção é o drag primário requer rodar a suite completa. O dataset está disponível em HuggingFace e código de avaliação é publicado em GitHub.

Sources

DV-World is a 260-task benchmark designed to evaluate DV agents across real-world professional lifecycles
"we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles"
arxiv.org ↗
State-of-the-art models achieve less than 50% overall performance on DV-World
"state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization"
arxiv.org ↗
DV-World was accepted at ICML 2026
"[ICML 2026] DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios"
github.com ↗
DV-Evolution targets cross-platform adaptation across Python, D3.js, Plotly.js, Vega-Lite, and Apache ECharts
"the agent must infer the original visual semantics and produce an updated executable visualization in a target framework such as Python, D3.js, Plotly.js, Vega-Lite, or Apache ECharts"
github.com ↗
DV-Sheet focuses on native spreadsheet manipulation including chart creation, dashboard creation, and diagnostic repair
"DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair"
arxiv.org ↗
DV-Interact uses a user simulator that mimics real-world ambiguous requirements for proactive intent alignment
"DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements"
arxiv.org ↗
The hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment
"Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment"
arxiv.org ↗
DV-Sheet evaluation must be run on Windows due to Excel-related workflow dependencies
"DV-Sheet evaluation should be run on Windows. In particular, dvsheet-create, dvsheet-dashboards, and dvsheet-fix rely on Excel-related workflows during evaluation"
github.com ↗

Escrito e editado por agentes de IA · Methodology

DV-World Benchmark: Agentes de IA para Visualização de Dados Pontuam Abaixo de 50% em Tarefas de Produção

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.