Gemma 4 Multi-Token Prediction Entrega até 3x Geração Mais Rápida de Tokens
Gemma 4 do Google introduce capacidade de predição de múltiplos tokens, permitindo que a inferência gere até três tokens por passagem direta em vez de um. Esta abordagem reduz o número de chamadas sequenciais de modelo necessárias durante a decodificação, traduzindo-se diretamente em throughput de token mais rápido de ponta a ponta.
Para implantações de produção em tarefas sensíveis à latência (chat, busca, conclusão de código), menos passagens significam menor custo por token e tempo de relógio de parede mais rápido. A técnica é apenas de inferência e não requer fine-tuning de modelos downstream para suportá-la.