VideoNet expõe lacunas de reconhecimento de ações em modelos de visão-linguagem

Pesquisadores lançaram um dataset de reconhecimento de ações em vídeo específico de domínio, projetado para avaliar modelos de visão-linguagem (VLMs) modernos em raciocínio temporal de alta fidelidade. O dataset visa casos de uso em inspeção industrial, saúde e segurança, onde a precisão em nível de frame é crítica.

VideoNet, um benchmark de reconhecimento de ações específico de domínio cobrindo 1.000 ações distintas em 37 domínios, stress-testa modelos de visão-linguagem modernos em raciocínio temporal—uma capacidade que benchmarks de propósito geral abandonaram como métrica de primeira classe.

O benchmark foi construído para fechar uma lacuna estrutural. À medida que datasets de reconhecimento de ações estagnaram, suites de avaliação de VLM deixaram de lado a compreensão temporal de múltiplos frames. VideoNet a restaura com formato de múltipla escolha. O spread de desempenho é amplo. Gemini 3.1 Pro lidera com 69,9% de acurácia. Qwen3-VL-8B fica para trás com 45,0%.

Para isolar modos de falha, o time de pesquisa progressivamente relaxou as condições de avaliação. Em um cenário binário, onde a chance aleatória é 50%, Qwen3-VL-8B alcançou apenas 59,2%—o modelo não consegue distinguir confiadamente uma descrição de ação correta de um único distrator. Quando o time introduziu exemplos de in-context few-shot, Qwen melhorou 7,0 pontos percentuais; Gemini 3.1 Pro declinou 4,8 pontos, indicando modos de falha diferentes entre arquiteturas. Humanos não-especialistas com os mesmos exemplos few-shot melhoraram 13,6 pontos percentuais—quase o dobro do melhor ganho de modelo—mostrando que o framing da tarefa sozinho não explica o sub-desempenho do modelo.

Para times corporativos executando VLMs em workflows intensivos em vídeo—controle de qualidade de manufatura, monitoramento de procedimentos clínicos, revisão de segurança física—o impacto operacional é direto. Um modelo com score de 59,2% em classificação de ações binária produz taxas de erro que se compõem em streams de vídeo de alto volume. Os 37 domínios de VideoNet expõem pontos cegos específicos de verticais que benchmarks cross-domínio achatam em scores agregados.

Os pesquisadores também coletaram o que descrevem como o primeiro dataset em larga escala para reconhecimento de ações específico de domínio: aproximadamente 500.000 pares de pergunta-resposta em vídeo. Fine-tuning de Molmo2-4B nestes dados supera todos os modelos de peso aberto na faixa de 8B parâmetros em VideoNet. Para organizações investindo em fine-tuning de modelos abertos para compreensão de vídeo, fornece tanto um corpus de treinamento estruturado quanto um alvo de validação mensurável, substituindo a dependência de leaderboards gerais de video QA que não discriminam em raciocínio temporal.

O abstract não enumera os 37 domínios ou detalha como os dados de vídeo foram obtidos e licenciados—uma lacuna para revisão de compliance em verticais reguladas. A avaliação few-shot usa exemplos de in-context da ação, divergindo do deployment real onde exemplares rotulados raramente estão disponíveis em tempo de inferência. VideoNet não foi adotado por suites de avaliação de VLM maiores, então a comparabilidade entre leaderboards permanece pendente.

Gemini 3.1 Pro chegando no topo com 69,9% neste benchmark de múltipla escolha construído com propósito é o número que deveria ancorar roadmaps de IA corporativa: a fronteira atual em raciocínio temporal específico de domínio deixa aproximadamente três respostas corretas em cada dez sem responder.

Sources

VideoNet covers 1,000 distinct actions from 37 domains
"we introduce VideoNet, a domain-specific action recognition benchmark covering 1,000 distinct actions from 37 domains"
arxiv.org ↗
Gemini 3.1 Pro attains 69.9% accuracy on VideoNet multiple-choice evaluation
"Gemini 3.1 Pro attains 69.9% accuracy while Qwen3-VL-8B gets a mere 45.0%"
arxiv.org ↗
Qwen3-VL-8B scores 45.0% on VideoNet multiple-choice evaluation
"Gemini 3.1 Pro attains 69.9% accuracy while Qwen3-VL-8B gets a mere 45.0%"
arxiv.org ↗
In a binary setting (50% random chance), Qwen achieves only 59.2% accuracy
"we relax the questions into a binary setting, where random chance is 50%. Still, Qwen achieves only 59.2% accuracy"
arxiv.org ↗
With few-shot in-context examples, Qwen improves +7.0% while Gemini declines -4.8%
"Qwen improves +7.0%, while Gemini declines -4.8%"
arxiv.org ↗
Non-expert humans improve +13.6% when given few-shot examples, nearly double the best model gain
"these gains fall short of the +13.6% improvement in non-expert humans when given few-shot examples"
arxiv.org ↗
The training dataset totals nearly 500,000 video question-answer pairs
"We collect the first large-scale training dataset for domain-specific actions, totaling nearly 500k video question-answer pairs"
arxiv.org ↗
Fine-tuned Molmo2-4B surpasses all open-weight 8B models on the VideoNet benchmark
"Fine-tuning a Molmo2-4B model on our data, we surpass all open-weight 8B models on the VideoNet benchmark"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

VideoNet expõe lacunas de reconhecimento de ações em modelos de visão-linguagem

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.