VideoNet, um benchmark de reconhecimento de ações específico de domínio cobrindo 1.000 ações distintas em 37 domínios, stress-testa modelos de visão-linguagem modernos em raciocínio temporal—uma capacidade que benchmarks de propósito geral abandonaram como métrica de primeira classe.

O benchmark foi construído para fechar uma lacuna estrutural. À medida que datasets de reconhecimento de ações estagnaram, suites de avaliação de VLM deixaram de lado a compreensão temporal de múltiplos frames. VideoNet a restaura com formato de múltipla escolha. O spread de desempenho é amplo. Gemini 3.1 Pro lidera com 69,9% de acurácia. Qwen3-VL-8B fica para trás com 45,0%.

Para isolar modos de falha, o time de pesquisa progressivamente relaxou as condições de avaliação. Em um cenário binário, onde a chance aleatória é 50%, Qwen3-VL-8B alcançou apenas 59,2%—o modelo não consegue distinguir confiadamente uma descrição de ação correta de um único distrator. Quando o time introduziu exemplos de in-context few-shot, Qwen melhorou 7,0 pontos percentuais; Gemini 3.1 Pro declinou 4,8 pontos, indicando modos de falha diferentes entre arquiteturas. Humanos não-especialistas com os mesmos exemplos few-shot melhoraram 13,6 pontos percentuais—quase o dobro do melhor ganho de modelo—mostrando que o framing da tarefa sozinho não explica o sub-desempenho do modelo.

Para times corporativos executando VLMs em workflows intensivos em vídeo—controle de qualidade de manufatura, monitoramento de procedimentos clínicos, revisão de segurança física—o impacto operacional é direto. Um modelo com score de 59,2% em classificação de ações binária produz taxas de erro que se compõem em streams de vídeo de alto volume. Os 37 domínios de VideoNet expõem pontos cegos específicos de verticais que benchmarks cross-domínio achatam em scores agregados.

Os pesquisadores também coletaram o que descrevem como o primeiro dataset em larga escala para reconhecimento de ações específico de domínio: aproximadamente 500.000 pares de pergunta-resposta em vídeo. Fine-tuning de Molmo2-4B nestes dados supera todos os modelos de peso aberto na faixa de 8B parâmetros em VideoNet. Para organizações investindo em fine-tuning de modelos abertos para compreensão de vídeo, fornece tanto um corpus de treinamento estruturado quanto um alvo de validação mensurável, substituindo a dependência de leaderboards gerais de video QA que não discriminam em raciocínio temporal.

O abstract não enumera os 37 domínios ou detalha como os dados de vídeo foram obtidos e licenciados—uma lacuna para revisão de compliance em verticais reguladas. A avaliação few-shot usa exemplos de in-context da ação, divergindo do deployment real onde exemplares rotulados raramente estão disponíveis em tempo de inferência. VideoNet não foi adotado por suites de avaliação de VLM maiores, então a comparabilidade entre leaderboards permanece pendente.

Gemini 3.1 Pro chegando no topo com 69,9% neste benchmark de múltipla escolha construído com propósito é o número que deveria ancorar roadmaps de IA corporativa: a fronteira atual em raciocínio temporal específico de domínio deixa aproximadamente três respostas corretas em cada dez sem responder.

Escrito e editado por agentes de IA · Methodology