Google lanza Gemini 3.5 Flash: supera tier Pro en codificación, 40% más barato, 4x más rápido
Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026, en Google I/O, estableciéndolo como el modelo predeterminado en toda la aplicación Gemini (900M MAU), Google Search AI Mode (1B+ MAU), Antigravity 2.0 y Gemini API. El lanzamiento de tier Flash invierte la jerarquía histórica de Google: 3.5 Flash supera a Gemini 3.1 Pro en benchmarks de codificación y agenéticos—Terminal-Bench 2.1: 76,2% vs. 70,3%, MCP Atlas: 83,6%, GDPval-AA: 1656 Elo—mientras entrega generación de tokens de salida 4x más rápida y precios 40% más bajos a $1,50/$9,00 por millón de tokens de entrada/salida (vs. $2,50/$15 de 3.1 Pro). El modelo soporta contexto de 1M y es el modelo agenético más fuerte que Google ha enviado hasta la fecha.
El movimiento arquitectónico señala un cambio en la estrategia de IA de frontera: en lugar de liderar con capacidad Pro y dejar que Flash se quede atrás, Google optimizó la familia Flash para velocidad y costo mientras mantiene razonamiento de nivel de frontera. Gemini 3.5 Flash supera a GPT-5.5 en MCP Atlas (confiabilidad de uso de herramientas) y lo empareja en velocidad de codificación. Retrocede ligeramente en razonamiento puro (Humanity's Last Exam, ARC-AGI-2) en comparación con 3.1 Pro, reflejando una elección de diseño para priorizar tareas agenéticas del mundo real sobre razonamiento abstracto. Gemini 3.5 Pro aún está en pruebas internas y se implementa 'el próximo mes' (apuntando a junio de 2026). Google divulgó que 3,2 quintillones de tokens por mes fluyen a través de sus sistemas, 7x año a año, y Antigravity 2.0 ejecuta 3.5 Flash a 12x la velocidad de la API pública a través de optimización local.
Los precios y la disponibilidad son agresivos: $1,50 de entrada es el precio más bajo para cualquier modelo de frontera, haciendo que los pipelines agenéticos de alto volumen sean materialmente más baratos. Los tokens de entrada en caché cuestan $0,15 por millón (descuento del 90%). Para equipos que ejecutan extracción de documentos, generación de código o flujos de trabajo basados en agentes, la economía unitaria vs. Claude Opus 4.7 ($5/$25) o GPT-5.5 ($4-8/$12-24) ahora está decididamente a favor de Google a escala. Google también introdujo Gemini Spark (un agente personal persistente en la aplicación Gemini, solo suscriptores AI Ultra, $100/mes) y anunció Gemini Omni, un modelo de generación de video comenzando con entrada de imagen y audio.
Para profesionales, el lanzamiento 3.5 Flash reorganiza el cálculo de costo-por-inferencia: cualquier carga de trabajo agenética o de codificación previamente bloqueada en una compensación 'mejor cuesta dinero' puede ahora evaluar Google primero sin compromiso de calidad. La posición del modelo predeterminado (500M+ búsquedas diarias de usuarios) significa que los desarrolladores que construyen contra la API de Gemini comparan con un modelo que ya llega a miles de millones a través de búsqueda; esa ventaja de distribución compone la adopción. Observe la lógica de selección de modelo en enrutadores LLM y capas de orquestación desplazarse hacia modelos sensibles a la latencia y eficientes en costo-por-token. Las empresas deben auditar qué cargas de trabajo están actualmente sobreprovisionadas en modelos de señalar y pueden caer a 3.5 Flash sin pérdida de calidad.
Fuentes
- Primary source
- blog.google
“Gemini 3.5 Flash delivers intelligence that rivals large flagship models on multiple dimensions, at the speeds you have come to expect from the Flash series. It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks”
- macrumors.com
“Gemini 3.5 Flash is available for everyone today across Google's products and APIs. Gemini 3.5 Pro - Google is testing Gemini 3.5 Pro internally, and it's coming next month”
- pasqualepillitteri.it
“3.5 Flash outperforms Gemini 3.1 Pro (released just three months earlier, in February 2026) across nearly the entire benchmark suite that truly matters today for agentic workloads at 40% less cost and 4x faster”