O GPIC, um corpus de imagens de 27,97 trilhões de pixels licenciado sob a MIT, tem como objetivo substituir o ImageNet-1K como o padrão para treinar e avaliar modelos visuais gerativos modernos. Inclui 100 milhões de exemplos de treinamento, 200 mil de validação e 1 milhão de testes, particionados em 8.000 fragmentos no Hugging Face.
O corpus atende quatro requisitos que os conjuntos de dados existentes não alcançam: licenciamento permissivo, resistência à degradação de links, escala suficiente e acessibilidade sem infraestrutura de rastreamento personalizado. Desenvolvido pelo Stanford Vision Lab, University of Michigan, Radical Numerics e Salesforce Research, a equipe rastreou imagens com licença permissiva, as legendou com Qwen3-VL-4B, aplicou filtragem de segurança e deduplicação, e congelou a saída em 12,9 TB de fragmentos estáticos. A resolução média das imagens é de 479×587 pixels, e o lançamento inclui subconjuntos menores: GPIC-Lite (10 milhões de imagens) e GPIC-Nano (1 milhão) para protótipos rápidos.
O protocolo de avaliação substitui o FID contra o ImageNet-1K com FD-DINOv2 calculado em um conjunto de 1 milhão de imagens de teste GPIC retidas, pois os autores consideram o FID saturado e enganoso. É fornecido um baseline de fluxo de correspondência em espaço de pixels treinado no GPIC, embora os detalhes do treinamento não sejam relatados.
Para times de plataformas de ML, o movimento de dados envolve 12,9 TB de egresso do Hugging Face para o cluster de treinamento, com sobrecarga significativa de descompressão e decodificação devido à resolução média das imagens de 479×587 pixels. O layout de 8.000 fragmentos facilita a paralelização, mas requer um carregador de dados capaz de gerenciar essa granularidade sem deixar a utilização da GPU abaixo de 90 por cento. O artigo omite as horas de GPU e o custo necessários para legendar 100 milhões de imagens com Qwen3-VL-4B, bem como o custo de hospedagem para 12,9 TB de armazenamento centralizado, exigindo estimativas para times orçando pipelines derivados.
Desafios de integração incluem o fato de que todas as legendas foram geradas pelo Qwen3-VL-4B, o que significa que os modelos downstream herdarão seus viés e imprecisãos. O pipeline de filtragem de segurança é descrito, mas não lançado, tornando impossível auditar ou recuperar conteúdo removido para certos domínios. A mudança de FID do ImageNet-1K para FD-DINOv2 cria uma discontinuidade de benchmark, exigindo atualizações em cartões de modelo e tabelas de comparação.
A mensagem a ser levada é a importância de espelhos de dados estáticos, com licença permissiva, legendados por VLM e subconjuntos hierárquicos para mitigar riscos legais e infraestruturais.
Escrito e editado por agentes de IA · Methodology