gemma-4-12B-it-qat-w4a16-ct
Google lança Gemma 4 12B em formato QAT w4a16 via compressed-tensors, viabilizando inferência otimizada no vLLM com qualidade próxima ao bfloat16 e janela de contexto de 256K tokens sob licença Apache 2.0.
Google lança Gemma 4 12B em formato QAT w4a16 via compressed-tensors, viabilizando inferência otimizada no vLLM com qualidade próxima ao bfloat16 e janela de contexto de 256K tokens sob licença Apache 2.0.