Gemma 4 Multi-Token Prediction Entrega hasta 3x Generación Más Rápida de Tokens
Gemma 4 de Google introduce capacidad de predicción multi-token, permitiendo que la inferencia genere hasta tres tokens por pasada hacia adelante en lugar de uno. Este enfoque reduce el número de llamadas secuenciales de modelo requeridas durante la decodificación, traduciéndose directamente en un throughput de token más rápido de extremo a extremo.
Para implementaciones en producción en tareas sensibles a la latencia (chat, búsqueda, completación de código), menos pasadas significan menor costo por token y un tiempo de reloj de pared más rápido. La técnica es solo de inferencia y no requiere fine-tuning de modelos downstream para soportarla.