Gemma 4 12B lanza arquitectura multimodal sin encoder para inferencia de IA en edge
Google DeepMind presentó Gemma 4 12B, un nuevo modelo multimodal unificado que elimina codificadores de visión separados y ofrece desempeño de punta en tareas de visión y lenguaje con un presupuesto de parámetros de 12B. La arquitectura habilita despliegues eficientes en dispositivos y edge para razonamiento de visión-lenguaje.
El lanzamiento se enfoca en casos de uso empresarial donde la eficiencia de parámetros y la latencia importan más que el desempeño de frontera, reflejando una tendencia hacia modelos más pequeños y especializados que pueden ejecutarse en hardware limitado y aún entregar capacidad competitiva.