VideoNet expone brechas en el reconocimiento de acciones en modelos de visión-lenguaje

Investigadores lanzaron un conjunto de datos de reconocimiento de acciones en vídeo específico del dominio, diseñado para evaluar modelos de visión-lenguaje (VLMs) modernos en razonamiento temporal de alta fidelidad. El conjunto de datos se dirige a casos de uso en inspección industrial, atención médica y seguridad, donde la precisión a nivel de fotograma es crítica.

VideoNet, un benchmark de reconocimiento de acciones específico del dominio que abarca 1.000 acciones distintas en 37 dominios, stress-test a modelos de visión-lenguaje modernos en razonamiento temporal—una capacidad que los benchmarks de propósito general han abandonado como métrica de primera clase.

El benchmark fue construido para cerrar una brecha estructural. A medida que los conjuntos de datos de reconocimiento de acciones se estancaron, las suites de evaluación de VLM dejaron caer la comprensión temporal de múltiples fotogramas. VideoNet la restaura con un formato de opción múltiple. El spread de desempeño es amplio. Gemini 3.1 Pro lidera con 69,9% de precisión. Qwen3-VL-8B se queda atrás con 45,0%.

Para aislar los modos de fallo, el equipo de investigación progresivamente relajó las condiciones de evaluación. En un escenario binario, donde la probabilidad aleatoria es 50%, Qwen3-VL-8B logró solo 59,2%—el modelo no puede distinguir confiablemente una descripción de acción correcta de un solo distractor. Cuando el equipo introdujo ejemplos few-shot en contexto, Qwen mejoró 7,0 puntos porcentuales; Gemini 3.1 Pro decayó 4,8 puntos, indicando modos de fallo diferentes entre arquitecturas. Humanos no expertos con los mismos ejemplos few-shot mejoraron 13,6 puntos porcentuales—casi el doble de la mejor ganancia del modelo—mostrando que el framing de la tarea por sí solo no explica el bajo desempeño del modelo.

Para equipos empresariales ejecutando VLMs en flujos de trabajo intensivos en vídeo—control de calidad de manufactura, monitoreo de procedimientos clínicos, revisión de seguridad física—el impacto operacional es directo. Un modelo con puntuación de 59,2% en clasificación binaria de acciones produce tasas de error que se componen en flujos de vídeo de alto volumen. Los 37 dominios de VideoNet exponen puntos ciegos específicos de verticales que los benchmarks multi-dominio aplanan en puntuaciones agregadas.

Los investigadores también recopilaron lo que describen como el primer conjunto de datos a gran escala para reconocimiento de acciones específico del dominio: aproximadamente 500.000 pares de pregunta-respuesta de vídeo. El fine-tuning de Molmo2-4B en estos datos supera todos los modelos de peso abierto en el nivel de parámetros de 8B en VideoNet. Para organizaciones que invierten en fine-tuning de modelos abiertos para comprensión de vídeo, proporciona tanto un corpus de entrenamiento estructurado como un objetivo de validación medible, reemplazando la dependencia de leaderboards de video QA general que no discriminan en razonamiento temporal.

El resumen no enumera los 37 dominios ni detalla cómo se obtuvieron y licenciaron los datos de vídeo—una brecha para la revisión de compliance en verticales reguladas. La evaluación few-shot utiliza ejemplos en contexto de la acción, divergiendo de deployment real donde los ejemplares etiquetados raramente están disponibles en tiempo de inferencia. VideoNet no ha sido adoptado por las suites de evaluación de VLM principales, por lo que la comparabilidad entre leaderboards sigue pendiente.

Gemini 3.1 Pro superando con 69,9% en este benchmark de opción múltiple construido con propósito es el número que debería anclar los roadmaps de IA empresarial: la frontera actual en razonamiento temporal específico del dominio deja aproximadamente tres respuestas correctas de cada diez sin responder.

Sources

VideoNet covers 1,000 distinct actions from 37 domains
"we introduce VideoNet, a domain-specific action recognition benchmark covering 1,000 distinct actions from 37 domains"
arxiv.org ↗
Gemini 3.1 Pro attains 69.9% accuracy on VideoNet multiple-choice evaluation
"Gemini 3.1 Pro attains 69.9% accuracy while Qwen3-VL-8B gets a mere 45.0%"
arxiv.org ↗
Qwen3-VL-8B scores 45.0% on VideoNet multiple-choice evaluation
"Gemini 3.1 Pro attains 69.9% accuracy while Qwen3-VL-8B gets a mere 45.0%"
arxiv.org ↗
In a binary setting (50% random chance), Qwen achieves only 59.2% accuracy
"we relax the questions into a binary setting, where random chance is 50%. Still, Qwen achieves only 59.2% accuracy"
arxiv.org ↗
With few-shot in-context examples, Qwen improves +7.0% while Gemini declines -4.8%
"Qwen improves +7.0%, while Gemini declines -4.8%"
arxiv.org ↗
Non-expert humans improve +13.6% when given few-shot examples, nearly double the best model gain
"these gains fall short of the +13.6% improvement in non-expert humans when given few-shot examples"
arxiv.org ↗
The training dataset totals nearly 500,000 video question-answer pairs
"We collect the first large-scale training dataset for domain-specific actions, totaling nearly 500k video question-answer pairs"
arxiv.org ↗
Fine-tuned Molmo2-4B surpasses all open-weight 8B models on the VideoNet benchmark
"Fine-tuning a Molmo2-4B model on our data, we surpass all open-weight 8B models on the VideoNet benchmark"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

VideoNet expone brechas en el reconocimiento de acciones en modelos de visión-lenguaje

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.