Os GPUs Ampere vêm usando multiplicações de matrizes bf16 para quantização INT8 de produção por padrão, mas um novo núcleo Triton fundido no Ideogram 4.0 corrigiu isso, reduzindo o tempo de geração de imagem de 1024px em um RTX 3090 para 156,5 segundos - uma melhoria de 9,5% em relação a FP8 e uma melhoria de 4,9% em relação a NF4 sem perda de qualidade.
O problema decorre de um artefato de software em pipelines padrão W8A8, onde os pesos e ativações são quantizados para INT8 e depois dequantizados de volta para bf16 antes da multiplicação de matriz. Isso resulta em núcleos tensoriais INT8 de Ampere permanecendo ocioso e consumo de largura de banda de memória desnecessária. O Ideogram 4.0 aborda isso substituindo a sequência de dequantização-e-matmul por um único núcleo Triton fundido que mantém os operandos em INT8, acumulando para int32 em núcleos tensoriais INT8 de Ampere e aplicando ativação por token e dequantização de peso por canal mais viés no epílogo antes de emitir bf16. Isso elimina um extra percurso de memória e sintoniza automaticamente cada instância do núcleo para sua forma GEMM específica, resultando em saída exata em bits contra torch._int_mm.
No nível GEMM, o núcleo é 2,8-4,2× mais rápido que o fallback bf16. No transformador de difusão do Ideogram 4.0 em resolução de 768px, isso se traduz em aproximadamente um aumento de velocidade de 1,1×, ou 9-10% mais rápido na geração. Em 1024px em um RTX 3090, o caminho INT8 fundido é concluído em 156,5 segundos, comparado com 164,5 segundos para NF4 e 172,9 segundos para FP8. As métricas de qualidade permanecem inalteradas, com semelhança cosine em relação à linha de base bf16 em 1,0 e nenhum NaN produzido. O esquema usa ativações padrão pós-treinamento por token e pesos por canal, eliminando a necessidade de retreinamento ou mudanças na arquitetura do modelo.
Essa melhoria é específica para GPUs Ampere de consumo, pois o mesmo núcleo perde para caminhos nativos bf16 e FP8 em Ampere de datacenter (A100) e é mais lento no Blackwell B200. A margem NF4 em 1024px também é frágil, com apenas n=4 execuções, e a liderança de 4,9% está dentro da variação de uma única execução, não estatisticamente rigorosa. O risco mais amplo é que o padrão fake-INT8 provavelmente existe em outras pilhas de difusão e serviço de transformador de produção; os engenheiros devem verificar seus rastros de matmul em nível de Triton, CUDA ou quadro, pois o atalho dequantize-para-bf16 pode estar ocultando em suas medições de latência e inflando seu custo por chamada.
Para engenheiros de inferência atuando na difusão em GPUs de consumo, a solução é um único GEMM Triton fundido que substitui um caminho de quantização fantasma pela utilização real de núcleos tensoriais INT8 - desde que o perfil confirme Ampere como o gargalo e não um nó mais rápido.
Escrito e editado por agentes de IA · Methodology