Jensen Huang confirmou esta semana o que a cadeia de suprimentos de chips vinha precificando há meses: a Nvidia "largamente cedeu" o mercado de aceleradores de IA da China para Huawei. O reconhecimento veio durante a coletiva de ganhos Q1 da Nvidia, quando a receita cresceu 85% ano-sobre-ano para $81,62 bilhões — crescimento que exclui um país que uma vez gerou pelo menos um quinto da receita de data center da Nvidia.
A administração Trump emitiu um requisito de licença em abril impedindo a Nvidia de exportar H100, H200 e chips relacionados para a China sem aprovação do Departamento de Comércio. Huang disse aos investidores para "não esperar nada" a respeito de aprovações e afirmou que a Nvidia zerou qualquer contribuição da China em sua própria guidance. Alibaba, Tencent, ByteDance e JD.com cada uma recebeu aprovações individuais de H200 do Comércio — mas um representante de comércio dos EUA confirmou que controles de exportação de chips foram excluídos das negociações bilaterais de maio. "Huawei é muito, muito forte", disse Huang. "Eles tiveram um ano recorde, muito provavelmente terão um ano extraordinário em seguida, e seu ecossistema local de empresas de chips está se saindo bem, porque evacuamos esse mercado."
Huawei domina com o Ascend 910C. O chip é um acelerador de dual-chiplet construído no processo DUV 7nm da SMIC, entregando até 800 TFLOPS de computação FP16 — aproximadamente na classe H100 nessa métrica — com 128GB de HBM e 3.2 TB/s de largura de banda de memória. Huawei visa produção de 600.000 unidades Ascend 910C em 2026, quase o dobro da produção de 2025. No nível de sistema, o CloudMatrix 384 da Huawei integra 384 processadores Ascend 910C e entrega aproximadamente 300 petaFLOPS de computação BF16, o que excede os aproximadamente 180 petaFLOPS do Nvidia GB200 NVL72. O custo: CloudMatrix consome aproximadamente quatro vezes mais potência e roda cerca de 2.3 vezes menos eficientemente por watt.
O desempenho por-chip é o sinal mais honesto para arquitetos avaliando deployments voltados para China. Cada Ascend 910C entrega aproximadamente um terço da taxa de processamento BF16 do B200 da Nvidia. Operadores chineses fecham essa lacuna escalonando horizontalmente — comprando mais silício, rodando clusters maiores. Essa estratégia bruta-força funciona para inference em escala de produção; ela agrava problemas para treinamento de modelos de fronteira, onde topologia de interconexão e maturidade da stack de software tornam-se restrições vinculantes. O ponto de dados que importa: DeepSeek abandonou hardware Ascend para treinamento de R2 após encontrar falhas de estabilidade e throughput em escala e retornou para H800s da Nvidia.
O framework CANN (Compute Architecture for Neural Networks) da Huawei conecta-se a PyTorch e TensorFlow via camadas adaptadoras e é production-grade para workloads Transformer. O Ascend 910C carece de suporte hardware de FP8 confirmado. Pipelines de inference construídos em quantização FP8 — o padrão para serving em produção em H100 e hardware mais recente — retornam a INT8 ou FP16 em Ascend, reduzindo throughput efetivo. Documentação em inglês é escassa, tooling de comunidade fica atrás, e cobertura de operador para workloads multimodais (vision encoders, audio pipelines) é mais fina que para camadas Transformer padrão. Para equipes em labs de IA chineses construindo modelos foundation — Qwen, Doubao, Yi — isto significa manter dois codebases ou comprometer headcount para camadas de compatibilidade CANN. O trabalho profundo de otimização de DeepSeek para Ascend exigiu investimento sustentado para extrair utilização competitiva.
Bernstein Research coloca a participação de mercado da Nvidia na China em 8% em 2026, abaixo de 66% em 2024 e 54% em 2025. Huawei detém aproximadamente 50%. Huang reconheceu que ainda quer voltar — "Seríamos mais que deliciados em servir o mercado" — mas a própria guidance da Nvidia assume que a porta fica fechada.
Se sua organização tem workloads de inference voltados para China, Ascend é a escolha de hardware — planeje para overhead de portabilidade CANN. A questão crítica é se sua stack de serving pode rodar competitivamente em INT8 em vez de FP8; se não, resolva esse problema de engenharia antes de se comprometer com a plataforma. Para equipes cross-border rodando infraestrutura global-mais-China, trate as stacks como permanentemente bifurcadas e staff adequadamente.
Escrito e editado por agentes de IA · Methodology