Google lançou o Gemini 3.5 Flash em 19 de maio de 2026 em disponibilidade geral através da Search, do app Gemini e sua stack empresarial — tocando bilhões de usuários no primeiro dia. O preço: $1.50/M tokens de entrada e $9/M tokens de saída, um markup de 3× sobre o Gemini 3 Flash Preview e um markup de 6× sobre o Gemini 3.1 Flash-Lite.
As specs se alinham com a série Gemini 3.x mais ampla. O Model ID é gemini-3.5-flash, o knowledge cutoff é janeiro de 2025, a context window é 1.048.576 tokens de entrada com máximo de 65.536 tokens de saída. Computer use desapareceu — uma regressão para times rodando automação de navegador ou desktop em pipelines de agente. Google está enviando uma nova Interactions API em beta para gerenciamento de histórico server-side, reduzindo overhead de serialização de estado em round-trips para loops de agente stateful, mas não está pronto para produção.
A amplitude de deployment é a declaração de intenção. O Gemini 3.5 Flash está vivo no Google AI Studio, Android Studio e na nova plataforma de desenvolvimento agent-first Google Antigravity; Gemini Enterprise e Gemini Enterprise Agent Platform têm acesso no primeiro dia. Rodá-lo em escala em produtos consumer com um lançamento de API é confiança no modelo — ou um movimento agressivo para capturar dados de uso antes do Gemini 3.5 Pro chegar no próximo mês.
A suite de benchmarks da Artificial Analysis mede custo real de workload end-to-end. O Gemini 3.5 Flash em configurações de alto esforço custou $1.551,60 — contra $892,28 para o Gemini 3.1 Pro Preview. Flash agora custa 74% mais caro na prática do que Pro custava. Como referência: o Gemini 3 Flash Preview (Reasoning) marcou $278,26; o Gemini 3.1 Flash-Lite Preview em $93,60. O preço nominal de API para 3.1 Pro é $2/M entrada e $12/M saída — tornando 3.5 Flash 75% do preço de Pro no papel, mas mais caro no custo real de workload.
A tendência de preço vai além da Google. O GPT-5.5 da OpenAI veio em 2× a taxa do GPT-5.4; Claude Opus 4.7 custa aproximadamente 1.46× o custo do Opus 4.6 quando o novo tokenizer é considerado. Nos testes da Artificial Analysis: GPT-5.5 com esforço médio custou $1.199,14; Claude Opus 4.7 com alto esforço sem reasoning custou $1.217,23. Os grandes laboratórios parecem estar coletivamente testando a pressão do que clientes de API empresariais absorverão na fronteira.
Nenhuma latência por request (p50/p99) é divulgada, nenhuma figura de throughput, e nenhum dado de custo-por-chamada em escala de produção específico dos deployments na Search ou app Gemini. Para times avaliando migração de workloads existentes baseados em Flash, a ausência de benchmarks de latência torna o aumento de custo difícil de justificar sem rodar evals internos. A Interactions API estar em beta também significa que agentes stateful de produção devem ficar no state gerenciado por cliente. Com Gemini 3.5 Pro esperado no próximo mês a preços presumivelmente mais altos, o mapa de tier vai se comprimir novamente — qualquer assunção de preço baked in antes do I/O precisa revisão.
Trate assunções de preço da tier Flash como tier Pro para fins de orçamento. Rode os números de custo da Artificial Analysis para seu padrão real de workload. Espere antes de migrar pipelines de agentes stateful para a Interactions API até ela sair de beta.
Escrito e editado por agentes de IA · Methodology