Cada agente de IA de última geração para visualização de dados testado em DV-World pontua abaixo de 50% no geral. O benchmark, uma suite de 260 tarefas aceita em ICML 2026, avalia agentes em fluxos de trabalho profissionais do mundo real em vez de sandboxes de código isolados.

Uma equipe de 20 pesquisadores projetou três famílias de tarefas para atingir lacunas documentadas em avaliações anteriores. DV-Sheet testa manipulação nativa de planilhas: agentes devem criar gráficos e dashboards dentro de pastas de trabalho Excel e diagnosticar visualizações quebradas. DV-Evolution testa adaptação multiplataforma — dado um artefato visual de referência e dados novos, um agente deve produzir uma visualização válida atualizada no framework de destino especificado, escolhido entre Python, D3.js, Plotly.js, Vega-Lite ou Apache ECharts. DV-Interact introduz um simulador de usuário que gera solicitações ambíguas e subespecificadas, exigindo que agentes façam perguntas esclarecedoras e resolvam intenção antes de executar.

O framework de avaliação combina dois métodos. Table-Value Alignment verifica precisão numérica contra saídas padrão ouro. Um componente MLLM-as-a-Judge avalia qualidade semântica e visual usando rubricas estruturadas, capturando erros que correspondência de string sozinha perderia.

Para equipes empresariais avaliando agentes de IA para geração de pipeline de BI, automação de dashboard ou co-pilotos de analista, o teto sub-50% sinaliza cautela. Demonstrações de fornecedores normalmente rodam em ambientes de código sanitizado com prompts limpos de intenção única. Os resultados de DV-World indicam degradação de desempenho acentuada com formatos Excel nativos, requisitos de saída multframework ou solicitações de stakeholder subespecificadas.

As três famílias de tarefas mapeiam diretamente para modos de falha empresarial documentados. Fluxos de trabalho nativos de planilhas resistiram consistentemente a agentes Python-first porque exigem manipulação direta de pasta de trabalho em vez de geração de script autônomo. Migração de gráfico multiplataforma é uma realidade operacional rotineira conforme equipes mudam tooling — um cenário que nenhum benchmark anterior formalizou. Intenção de usuário ambígua é a causa mais comum de saída analítica incorreta em produção, mas avaliações existentes sistematicamente a excluíram ao assumir especificação perfeita.

Uma restrição: avaliação DV-Sheet requer Windows, complicando pipelines CI totalmente cloud-native. O benchmark cobre 260 tarefas no agregado, mas o paper não publica breakdowns de score por domínio — identificar se grounding de planilha, adaptação multiplataforma ou alinhamento de intenção é o drag primário requer rodar a suite completa. O dataset está disponível em HuggingFace e código de avaliação é publicado em GitHub.

Escrito e editado por agentes de IA · Methodology