Google lança Gemini 3.5 Flash: supera tier Pro em codificação, 40% mais barato, 4x mais rápido
Google lançou Gemini 3.5 Flash em 19 de maio de 2026, no Google I/O, estabelecendo-o como o modelo padrão em todo o aplicativo Gemini (900M MAU), Google Search AI Mode (1B+ MAU), Antigravity 2.0 e Gemini API. O lançamento do tier Flash inverte a hierarquia histórica do Google: 3.5 Flash supera o Gemini 3.1 Pro em referéncias de codificação e ageníacas—Terminal-Bench 2.1: 76,2% vs. 70,3%, MCP Atlas: 83,6%, GDPval-AA: 1656 Elo—enquanto entrega geração de token de saída 4x mais rápida e preço 40% menor a $1,50/$9,00 por milhão de tokens de entrada/saída (vs. $2,50/$15 do 3.1 Pro). O modelo suporta contexto de 1M e é o modelo ageníaco mais forte que Google enviou até agora.
O movimento arquitetural sinaliza uma mudança na estratégia de IA de fronteira: em vez de liderar com capacidade Pro e deixar Flash ficar para trás, Google otimizou a família Flash para velocidade e custo mantendo raciocínio de nível de fronteira. Gemini 3.5 Flash supera GPT-5.5 em MCP Atlas (confiabilidade de uso de ferramentas) e o corresponde em velocidade de codificação. Ele tem uma pequena regressão no raciocínio puro (Humanity's Last Exam, ARC-AGI-2) em comparação com 3.1 Pro, refletindo uma escolha de design para priorizar tarefas ageníacas do mundo real sobre raciocínio abstrato. Gemini 3.5 Pro ainda está em testes internos e saindo "próximo mês" (visando junho de 2026). Google divulgou que 3,2 quintilhões de tokens por mês fluem através de seus sistemas, acima 7x ano a ano, e Antigravity 2.0 executa 3.5 Flash a 12x a velocidade da API pública através de otimização local.
Preço e disponibilidade são agressivos: $1,50 de entrada é o preço mais baixo para qualquer modelo de fronteira, tornando pipelines ageníacas de alto volume materialmente mais baratos. Tokens de entrada em cache custam $0,15 por milhão (desconto de 90%). Para equipes rodando extração de documentos, geração de código ou fluxos de trabalho baseados em agentes, a econometria de unidade vs. Claude Opus 4.7 ($5/$25) ou GPT-5.5 ($4-8/$12-24) são agora decisivamente a favor do Google em escala. Google também introduziu Gemini Spark (um agente pessoal persistente no aplicativo Gemini, somente assinantes AI Ultra, $100/mês) e anunciou Gemini Omni, um modelo de geração de vídeo começando com entrada de imagem e áudio.
Para praticantes, o lançamento 3.5 Flash reorganiza o cálculo de custo-por-inferência: qualquer carga de trabalho ageníaca ou de codificação previamente travada em um trade-off "melhor custa dinheiro" pode agora avaliar o Google primeiro sem comprometimento de qualidade. A posição do modelo padrão (500M+ buscas diárias de usuários) significa que desenvolvedores construindo contra a Gemini API comparam contra um modelo que já atinge bilhões por meio de busca; essa vantagem de distribuição compensa a adoção. Observe a lógica de seleção de modelo em roteadores LLM e camadas de orquestração se deslocar em direção a modelos sensibles a latência e eficientes em custo-por-token. Empresas devem auditar quais cargas de trabalho estão atualmente sobre-provisionadas em modelos de bandeira e podem cair para 3.5 Flash sem perda de qualidade.
Fontes
- Primary source
- blog.google
“Gemini 3.5 Flash delivers intelligence that rivals large flagship models on multiple dimensions, at the speeds you have come to expect from the Flash series. It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks”
- macrumors.com
“Gemini 3.5 Flash is available for everyone today across Google's products and APIs. Gemini 3.5 Pro - Google is testing Gemini 3.5 Pro internally, and it's coming next month”
- pasqualepillitteri.it
“3.5 Flash outperforms Gemini 3.1 Pro (released just three months earlier, in February 2026) across nearly the entire benchmark suite that truly matters today for agentic workloads at 40% less cost and 4x faster”