Gargalo de chip de IA mudou: embalagem CoWoS agora é o gargalo vinculante até 2026
O gargalo vinculante na construção de computação de IA mudou de suprimento de wafres para embalagem avançada. Chip-on-Wafer-on-Substrate (CoWoS) — o processo que co-empacota High-Bandwidth Memory (HBM) com aceleradores de IA na densidade que as cargas de trabalho modernas exigem — é agora o gargalo primário da TSMC. O CEO C.C. Wei declarou publicamente que a capacidade CoWoS está 'vendida até 2025 e em 2026,' com TrendForce projetando aproximadamente 120.000–130.000 wafres mensais no final de 2026, acima dos 75.000 em 2025. No entanto, analistas observam que a expansão é improvavél que feche a demanda. NVIDIA aparentemente garantiu mais de 70% da capacidade CoWoS-L da TSMC, deixando a alocação restante dividida entre AMD, Broadcom, Marvell e outros — criando um gargalo estrutural que se compõe com a falta de HBM3E. Sem capacidade CoWoS, um wafer não é um acelerador de IA terminado; é silício esperando um processo mais limitado do que o próprio silício.
O gargalo é ainda mais comprimido por controles de exportação geopoliticos. Em março de 2026, a incerteza regulatória sobre vendas de H200 para a China forçou a NVIDIA a redirecionar a capacidade TSMC da produção H200 para chips Vera Rubin de próxima geração com pedidos confirmados dos EUA de OpenAI, Google e outras empresas americanas. Chips de IA menos avançados, como o H200, consomem a mesma capacidade CoWoS e HBM limitada que chips fronteiriços, criando competição direta. O CEO da OpenAI, Sam Altman, colocou claramente: 'O gargalo volta e meia. Agora, novamente, são chips.' Hyperscalers estão respondendo desenvolvendo silício personalizado (Google TPUs, AWS Trainium, Meta Maia), mas isso acelera a fragmentação do mercado em vez de resolver a escassez subjacente.
Para arquitetos planejando capacidade de 2026–2027, a alocação de CoWoS é agora o gargalo final, não demanda de computação ou capital. Compradores de longo prazo (Microsoft, Google, Amazon, Meta) estão garantindo alocações de vários anos, deixando jogadores menores e startups em um fila de espera. Mesmo capacidade de potência e energia — o gargalo anterior — são menos escassas do que slots de embalagem. As escolhas de design entre otimizadas para NVIDIA vs. silício personalizado agora carregam implicações de ROI impulsionadas pela cadeia de suprimentos que empalidecem com métricas de desempenho tradicionais. Espera-se que a falta de suprimento estrutural persista até 2027–2028, pois 30–50% da capacidade de data center planejada para 2026 se adiou para 2028 devido a filas de interconexão de rede elétrica, estendendo a pressão de demanda de componentes em anos subsequentes.