Núcleo Triton Fundido Reduz Geração de Imagens em 9,5% no Ampere Consumidor

Engenheiros da Ideogram descobriram um erro de quantização INT8 de produção: os núcleos W8A8 implantados em GPUs Ampere de consumo (séries RTX 3000/4000) são mais lentos do que os alternativos FP8 divulgados, pois a passagem para frente "INT8" dequantiza de volta para bf16 e executa matmul bf16, nunca utilizando os núcleos tensoriais INT8. Um núcleo GEMM INT8 fundido mantém os dados em INT8 durante o cálculo, desbloqueando a aceleração de hardware. Impacto validado no Ideogram 4.0, um modelo em circulação. Essencial para engenheiros de inferência otimizando a implantação de difusão em GPUs de consumo.

Os GPUs Ampere vêm usando multiplicações de matrizes bf16 para quantização INT8 de produção por padrão, mas um novo núcleo Triton fundido no Ideogram 4.0 corrigiu isso, reduzindo o tempo de geração de imagem de 1024px em um RTX 3090 para 156,5 segundos - uma melhoria de 9,5% em relação a FP8 e uma melhoria de 4,9% em relação a NF4 sem perda de qualidade.

O problema decorre de um artefato de software em pipelines padrão W8A8, onde os pesos e ativações são quantizados para INT8 e depois dequantizados de volta para bf16 antes da multiplicação de matriz. Isso resulta em núcleos tensoriais INT8 de Ampere permanecendo ocioso e consumo de largura de banda de memória desnecessária. O Ideogram 4.0 aborda isso substituindo a sequência de dequantização-e-matmul por um único núcleo Triton fundido que mantém os operandos em INT8, acumulando para int32 em núcleos tensoriais INT8 de Ampere e aplicando ativação por token e dequantização de peso por canal mais viés no epílogo antes de emitir bf16. Isso elimina um extra percurso de memória e sintoniza automaticamente cada instância do núcleo para sua forma GEMM específica, resultando em saída exata em bits contra torch._int_mm.

No nível GEMM, o núcleo é 2,8-4,2× mais rápido que o fallback bf16. No transformador de difusão do Ideogram 4.0 em resolução de 768px, isso se traduz em aproximadamente um aumento de velocidade de 1,1×, ou 9-10% mais rápido na geração. Em 1024px em um RTX 3090, o caminho INT8 fundido é concluído em 156,5 segundos, comparado com 164,5 segundos para NF4 e 172,9 segundos para FP8. As métricas de qualidade permanecem inalteradas, com semelhança cosine em relação à linha de base bf16 em 1,0 e nenhum NaN produzido. O esquema usa ativações padrão pós-treinamento por token e pesos por canal, eliminando a necessidade de retreinamento ou mudanças na arquitetura do modelo.

Essa melhoria é específica para GPUs Ampere de consumo, pois o mesmo núcleo perde para caminhos nativos bf16 e FP8 em Ampere de datacenter (A100) e é mais lento no Blackwell B200. A margem NF4 em 1024px também é frágil, com apenas n=4 execuções, e a liderança de 4,9% está dentro da variação de uma única execução, não estatisticamente rigorosa. O risco mais amplo é que o padrão fake-INT8 provavelmente existe em outras pilhas de difusão e serviço de transformador de produção; os engenheiros devem verificar seus rastros de matmul em nível de Triton, CUDA ou quadro, pois o atalho dequantize-para-bf16 pode estar ocultando em suas medições de latência e inflando seu custo por chamada.

Para engenheiros de inferência atuando na difusão em GPUs de consumo, a solução é um único GEMM Triton fundido que substitui um caminho de quantização fantasma pela utilização real de núcleos tensoriais INT8 - desde que o perfil confirme Ampere como o gargalo e não um nó mais rápido.

Sources

Production W8A8 INT8 forward pass dequantizes activations and weights back to bf16 before matmul, never engaging Ampere INT8 tensor cores — a software artifact, not a hardware limitation
"the production 'INT8' forward quantizes weights and activations only to immediately dequantize them back to bf16 and run a bf16 matrix multiply, never engaging the GPU's INT8 tensor cores"
arxiv.org ↗
Fused Triton INT8 GEMM kernel is 2.8–4.2× faster than bf16 per GEMM on Ampere tensor cores
"running 2.8-4.2x faster than bf16 per GEMM"
arxiv.org ↗
End-to-end on Ideogram 4.0 at 768px the fused kernel delivers ~9–10% speedup (~1.1×)
"End to end it delivers a ~1.1x (~9-10%) speedup at 768px"
arxiv.org ↗
At 1024px on a single RTX 3090, fused INT8 completes in 156.5 s vs 164.5 s for NF4 and 172.9 s for FP8
"at 1024px it generates an image in 156.5 s on a single RTX 3090, faster than the single-card NF4 (164.5 s) and FP8 (172.9 s) baselines"
arxiv.org ↗
Quality unchanged: cosine similarity 1.0, no NaNs, PickScore/CLIPScore flat versus bf16 baseline
"the dequantized output matches the reference at cosine similarity 1.0 with no NaNs... at no measurable quality cost on these point estimates (PickScore/CLIPScore)"
arxiv.org ↗
The kernel win is Ampere-consumer-specific; on A100 and B200 the same kernel loses to native bf16/FP8 paths
"the win is specific to consumer Ampere, and on A100 and B200 the same kernel loses to those cards' fast native bf16/FP8 paths"
arxiv.org ↗
NF4 margin at 1024px (~4.9%) was measured with only n=4 runs and is within single-run variance — authors flag it as not statistically rigorous
"The primary speed criterion (beat FP8, by ~9.5%) is comfortably met; the NF4 margin (~4.9%, single-run n=4) is within run-to-run variance we did not quantify"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Núcleo Triton Fundido Reduz Geração de Imagens em 9,5% no Ampere Consumidor

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.