Gemma 4 12B lança arquitetura multimodal sem encoder para inferência de IA em edge
Google DeepMind apresentou Gemma 4 12B, um novo modelo multimodal unificado que elimina encoders de visão separados e oferece desempenho de ponta em tarefas de visão e linguagem com orçamento de parâmetro de 12B. A arquitetura habilita deployments eficientes em dispositivos e edge para raciocínio de visão-linguagem.
O lançamento visa casos de uso empresarial onde eficiência de parâmetro e latência importam mais que desempenho de fronteira, refletindo tendência em direção a modelos menores e especializados que podem rodar em hardware restrito e ainda entregar capacidade competitiva.