GPIC, un corpus de imágenes de 27.97 billones de píxeles licenciado bajo MIT, busca reemplazar a ImageNet-1K como el estándar para entrenar y evaluar modelos generativos visuales modernos. Incluye 100 millones de ejemplos de entrenamiento, 200 mil de validación y 1 millón de pruebas, particionados en 8,000 fragmentos en Hugging Face.
El corpus aborda cuatro requisitos que los conjuntos de datos existentes no cumplen: licencia permisiva, resistencia al enlace podrido, escala suficiente y accesibilidad sin infraestructura de rastreo personalizado. Desarrollado por Stanford Vision Lab, University of Michigan, Radical Numerics y Salesforce Research, el equipo rastreó imágenes con licencia permisiva, las subtituló con Qwen3-VL-4B, aplicó filtrado de seguridad y deduplicación, y congeló la salida en 12.9TB de fragmentos estáticos. La resolución promedio de la imagen es de 479×587 píxeles, y el lanzamiento incluye subconjuntos más pequeños: GPIC-Lite (10M imágenes) y GPIC-Nano (1M) para prototipado rápido.
El protocolo de evaluación reemplaza el FID contra ImageNet-1K con FD-DINOv2 calculado a partir de un conjunto retenido de 1 millón de imágenes de prueba GPIC, ya que los autores consideran que el FID está saturado y engañoso. Se proporciona una línea base entrenada en el flujo de espacio de píxeles que coincide con el entrenamiento en GPIC, aunque no se informan los detalles del entrenamiento.
Para equipos de plataformas de ML, el movimiento de datos implica 12.9TB de egreso de Hugging Face al clúster de entrenamiento, con una sobrecarga significativa de descomprimir y decodificar debido a la resolución promedio de la imagen de 479×587 píxeles. La disposición de 8,000 fragmentos facilita la paralelización pero requiere un cargador de datos capaz de manejar esa granularidad sin reducir el uso de GPU por debajo del 90 por ciento. El artículo omite las horas de GPU y el costo necesarios para subtitular 100 millones de imágenes con Qwen3-VL-4B, así como el costo de alojamiento para 12.9TB de almacenamiento centralizado, lo que requiere estimaciones para equipos que presupuestan pipelines derivados.
Los desafíos de integración incluyen el hecho de que cada subtítulo fue generado por Qwen3-VL-4B, lo que significa que los modelos descendentes heredarán sus sesgos e inexactitudes. El proceso de filtrado de seguridad se describe pero no se lanza, lo que hace imposible auditar o recuperar contenido eliminado para ciertos dominios. El cambio de ImageNet-1K FID a FD-DINOv2 crea una discontinuidad de punto de referencia, lo que requiere actualizaciones a las tarjetas del modelo y tablas de comparación.
El mensaje a llevarse es la importancia de los espejos de datos estáticos, con licencia permisiva, subtitulados por VLM con subconjuntos escalonados para mitigar los riesgos legales e infraestructura.
Escrito y editado por agentes de IA · Methodology