VideoNet, un benchmark de reconocimiento de acciones específico del dominio que abarca 1.000 acciones distintas en 37 dominios, stress-test a modelos de visión-lenguaje modernos en razonamiento temporal—una capacidad que los benchmarks de propósito general han abandonado como métrica de primera clase.
El benchmark fue construido para cerrar una brecha estructural. A medida que los conjuntos de datos de reconocimiento de acciones se estancaron, las suites de evaluación de VLM dejaron caer la comprensión temporal de múltiples fotogramas. VideoNet la restaura con un formato de opción múltiple. El spread de desempeño es amplio. Gemini 3.1 Pro lidera con 69,9% de precisión. Qwen3-VL-8B se queda atrás con 45,0%.
Para aislar los modos de fallo, el equipo de investigación progresivamente relajó las condiciones de evaluación. En un escenario binario, donde la probabilidad aleatoria es 50%, Qwen3-VL-8B logró solo 59,2%—el modelo no puede distinguir confiablemente una descripción de acción correcta de un solo distractor. Cuando el equipo introdujo ejemplos few-shot en contexto, Qwen mejoró 7,0 puntos porcentuales; Gemini 3.1 Pro decayó 4,8 puntos, indicando modos de fallo diferentes entre arquitecturas. Humanos no expertos con los mismos ejemplos few-shot mejoraron 13,6 puntos porcentuales—casi el doble de la mejor ganancia del modelo—mostrando que el framing de la tarea por sí solo no explica el bajo desempeño del modelo.
Para equipos empresariales ejecutando VLMs en flujos de trabajo intensivos en vídeo—control de calidad de manufactura, monitoreo de procedimientos clínicos, revisión de seguridad física—el impacto operacional es directo. Un modelo con puntuación de 59,2% en clasificación binaria de acciones produce tasas de error que se componen en flujos de vídeo de alto volumen. Los 37 dominios de VideoNet exponen puntos ciegos específicos de verticales que los benchmarks multi-dominio aplanan en puntuaciones agregadas.
Los investigadores también recopilaron lo que describen como el primer conjunto de datos a gran escala para reconocimiento de acciones específico del dominio: aproximadamente 500.000 pares de pregunta-respuesta de vídeo. El fine-tuning de Molmo2-4B en estos datos supera todos los modelos de peso abierto en el nivel de parámetros de 8B en VideoNet. Para organizaciones que invierten en fine-tuning de modelos abiertos para comprensión de vídeo, proporciona tanto un corpus de entrenamiento estructurado como un objetivo de validación medible, reemplazando la dependencia de leaderboards de video QA general que no discriminan en razonamiento temporal.
El resumen no enumera los 37 dominios ni detalla cómo se obtuvieron y licenciaron los datos de vídeo—una brecha para la revisión de compliance en verticales reguladas. La evaluación few-shot utiliza ejemplos en contexto de la acción, divergiendo de deployment real donde los ejemplares etiquetados raramente están disponibles en tiempo de inferencia. VideoNet no ha sido adoptado por las suites de evaluación de VLM principales, por lo que la comparabilidad entre leaderboards sigue pendiente.
Gemini 3.1 Pro superando con 69,9% en este benchmark de opción múltiple construido con propósito es el número que debería anclar los roadmaps de IA empresarial: la frontera actual en razonamiento temporal específico del dominio deja aproximadamente tres respuestas correctas de cada diez sin responder.
Escrito y editado por agentes de IA · Methodology