Conjunto de Datos Abierto GPIC Reemplaza a ImageNet-1K como Corpus Estándar de Entrenamiento

GPIC, un corpus de imágenes de 27.97 billones de píxeles licenciado bajo MIT, busca reemplazar a ImageNet-1K como el estándar para entrenar y evaluar modelos generativos visuales modernos. Incluye 100 millones de ejemplos de entrenamiento, 200 mil de validación y 1 millón de pruebas, particionados en 8,000 fragmentos en Hugging Face.

El corpus aborda cuatro requisitos que los conjuntos de datos existentes no cumplen: licencia permisiva, resistencia al enlace podrido, escala suficiente y accesibilidad sin infraestructura de rastreo personalizado. Desarrollado por Stanford Vision Lab, University of Michigan, Radical Numerics y Salesforce Research, el equipo rastreó imágenes con licencia permisiva, las subtituló con Qwen3-VL-4B, aplicó filtrado de seguridad y deduplicación, y congeló la salida en 12.9TB de fragmentos estáticos. La resolución promedio de la imagen es de 479×587 píxeles, y el lanzamiento incluye subconjuntos más pequeños: GPIC-Lite (10M imágenes) y GPIC-Nano (1M) para prototipado rápido.

El protocolo de evaluación reemplaza el FID contra ImageNet-1K con FD-DINOv2 calculado a partir de un conjunto retenido de 1 millón de imágenes de prueba GPIC, ya que los autores consideran que el FID está saturado y engañoso. Se proporciona una línea base entrenada en el flujo de espacio de píxeles que coincide con el entrenamiento en GPIC, aunque no se informan los detalles del entrenamiento.

Para equipos de plataformas de ML, el movimiento de datos implica 12.9TB de egreso de Hugging Face al clúster de entrenamiento, con una sobrecarga significativa de descomprimir y decodificar debido a la resolución promedio de la imagen de 479×587 píxeles. La disposición de 8,000 fragmentos facilita la paralelización pero requiere un cargador de datos capaz de manejar esa granularidad sin reducir el uso de GPU por debajo del 90 por ciento. El artículo omite las horas de GPU y el costo necesarios para subtitular 100 millones de imágenes con Qwen3-VL-4B, así como el costo de alojamiento para 12.9TB de almacenamiento centralizado, lo que requiere estimaciones para equipos que presupuestan pipelines derivados.

Los desafíos de integración incluyen el hecho de que cada subtítulo fue generado por Qwen3-VL-4B, lo que significa que los modelos descendentes heredarán sus sesgos e inexactitudes. El proceso de filtrado de seguridad se describe pero no se lanza, lo que hace imposible auditar o recuperar contenido eliminado para ciertos dominios. El cambio de ImageNet-1K FID a FD-DINOv2 crea una discontinuidad de punto de referencia, lo que requiere actualizaciones a las tarjetas del modelo y tablas de comparación.

El mensaje a llevarse es la importancia de los espejos de datos estáticos, con licencia permisiva, subtitulados por VLM con subconjuntos escalonados para mitigar los riesgos legales e infraestructura.

Sources

GPIC comprises 27.97 trillion pixels across 100M training, 200K validation, and 1M test examples captioned with Qwen3-VL-4B; hosted on Hugging Face as 8,000 shards totaling 12.9TB under MIT license
"GPIC comprises 27.97 trillion pixels across 100M training, 200K validation, and 1M test examples captioned with Qwen3-VL-4B. GPIC is centrally hosted on Hugging Face as 8,000 shards totaling 12.9TB and released under the MIT license."
arxiv.org ↗
All GPIC images are permissively licensed for both research and commercial use; the corpus is safety-filtered and deduplicated
"all GPIC images are permissively licensed for both research and commercial use. GPIC is safety-filtered, deduplicated, and centrally hosted on Hugging Face."
arxiv.org ↗
GPIC images have an average height of 479 pixels and an average width of 587 pixels
"GPIC images have an average height of 479 pixels and an average width of 587 pixels."
arxiv.org ↗
Existing corpora fail at least one of four criteria—permissive, stable, large, accessible—while GPIC satisfies all four; ImageNet-1K is only permissive and stable; YFCC100M is only stable and large; OpenImages and DataComp are only large and accessible
"Existing image benchmark datasets fail to satisfy all four criteria. GPIC satisfies all four criteria."
arxiv.org ↗
Several recent generation methods achieve lower FID scores on the ImageNet-1K benchmark than held-out real images, motivating the switch to FD-DINOv2 evaluated against 1 million held-out GPIC test images
"several recent methods achieve lower FID scores on the ImageNet-1K benchmark than held-out real images... we provide a new benchmarking protocol based on FD-DINOv2 against a held-out set of one million GPIC images."
arxiv.org ↗
GPIC-Lite (10M images) and GPIC-Nano (1M images) subsets are provided for development
"GPIC-Lite (10M) and GPIC-Nano (1M) provide smaller subsets for development."
arxiv.org ↗
A reference pixel-space flow matching baseline trained on GPIC is provided
"we provide a reference baseline for pixel-space flow matching on GPIC."
arxiv.org ↗
Dataset and benchmark hosted at HuggingFace; evaluation toolkit and code at gpic.stanford.edu
"Our dataset, benchmark, and models are available at https://huggingface.co/datasets/stanford-vision-lab/gpic."
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

Conjunto de Datos Abierto GPIC Reemplaza a ImageNet-1K como Corpus Estándar de Entrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.