Cerebras e Gemma 4 alcançam sub-200ms de latência de voz com stack modular aberto

Hugging Face e Cerebras publicaram uma demo de voz IA conjunta em 1º de julho emparelhando Gemma 4 31B com a inferência em escala de wafer da Cerebras para um pipeline speech-to-speech totalmente aberto e em cascata. A stack encadeia Parakeet da Nvidia para ASR, Gemma 4 31B em Cerebras para inferência de linguagem, e Qwen3TTS da Alibaba para síntese. Cada camada é modular, aberta e substituível. O mesmo pipeline roda em mais de 9.000 robôs Reachy Mini em produção.

Sistemas de voz em produção hoje alcançam latência mediana aceitável mas entregam atrasos de múltiplos segundos no P95. Esses atrasos de cauda — comuns quando chamadas de ferramenta ou etapas multimodais se acumulam — fazem voz IA parecer pouco confiável apesar de funcionar no caminho feliz. Cerebras aponta para a etapa LLM, tipicamente o gargalo dominante. Em 1.851 tokens de saída por segundo em Gemma 4 31B, uma resposta LLM de 150 tokens é concluída em aproximadamente 80ms. Isso deixa orçamento para ASR e TTS enquanto permanece abaixo de 200ms, o limiar que pesquisadores de voz tratam como o limite entre conversação natural e atrasada.

Gemma 4 31B é um modelo de 31 bilhões de parâmetros lançado por Google DeepMind sob Apache 2.0. Ele pontua 29 no Artificial Analysis Intelligence Index, comparável a Claude Haiku 4.5 em 30. Em Cerebras, roda 18x mais rápido que Haiku. Time to first token fica em 1,5 segundos conforme benchmarks da Cerebras. Medições atuais do Artificial Analysis colocam throughput em 2.106 tokens por segundo, acima dos 1.851 no lançamento. Precificação agregada em Cerebras corre $1,04 por milhão de tokens com janela de contexto de 131K.

Modularidade é a aposta de engenharia. Nada na stack HF é proprietário. Troque Parakeet por Whisper ou um modelo ASR específico de domínio e o resto do pipeline não é afetado. Substitua Qwen3TTS por uma camada de síntese diferente e a etapa de modelo de linguagem permanece inalterada. O deployment Reachy Mini prova isso: o mesmo código roda assistentes conversacionais e robótica corporificada, deixando times ajustarem componentes individuais para tradeoffs latência-qualidade-custo sem rearquitetar todo o sistema.

Logan Kilpatrick do Google DeepMind: "Se cada modelo estivesse fazendo 2.000 tokens por segundo, você provavelmente construiria produtos diferentes. Você não construiria o mesmo produto e apenas teria mais velocidade." Isso é preciso para voz. Inferência em velocidade GPU em 100–150 TPS força times de produto a adicionar áudio de preenchimento, fazer stream sentença por sentença com lag visível, ou restringir o prompt do sistema para reduzir o comprimento da geração. Em 1.800+ TPS essas compensações se tornam desnecessárias.

A demo atual é speech-in, text-in-the-middle, speech-out — um pipeline em cascata, não áudio end-to-end. Cada etapa adiciona seu próprio piso de latência; cada limite é um ponto de falha. Acurácia de transcrição do Parakeet em áudio ruidoso, qualidade de prosódia do Qwen3TTS e manipulação de interrupções estão fora do escopo do que velocidade de inferência da Cerebras aborda. O gargalo LLM é resolvido para este modelo neste tamanho. ASR e TTS são ainda onde variância de latência se acumula em deployments reais.

O repo é público em huggingface/speech-to-speech. Para times avaliando stacks de voz em tempo real, a arquitetura é uma baseline utilizável: Apache 2.0 por todo o código, três componentes bem documentados, e um deployment de referência em escala. Acesso Cerebras Inference Cloud para Gemma 4 31B está em preview público.

Sources

Pipeline chains Nvidia Parakeet ASR → Gemma 4 31B on Cerebras → Qwen3TTS; same pipeline powers 9,000+ Reachy Mini robots
"This same Hugging Face speech-to-speech pipeline already powers Reachy Mini robots, with more than 9,000 robots in the wild."
huggingface.co ↗
Production voice systems see acceptable median latency but multi-second delays at P95; tool calls and multimodal steps compound this
"Today, some production systems see a reasonable median latency while still experiencing frustrating multi-second delays at the P95. Those delays become even more noticeable when tool calls or multimodal steps require multiple turns."
huggingface.co ↗
Cerebras runs Gemma 4 31B at 1,851 output tokens/second — 35x the speed of a typical GPU endpoint — per Artificial Analysis
"Cerebras runs Gemma 4 31B at a record 1,851 output tokens per second as measured by Artificial Analysis—35x the speed of a typical GPU endpoint."
cerebras.ai ↗
TTFT inclusive of reasoning is 1.5 seconds on Cerebras; Gemma 4 31B runs 18x faster than Claude Haiku 4.5 at comparable intelligence
"Gemma 4 on Cerebras returns its first answer token inclusive of reasoning in 1.5 seconds, making Cerebras the only provider that lets Gemma 4 be used in real-time settings."
cerebras.ai ↗
Gemma 4 31B scores 29 on Artificial Analysis Intelligence Index vs Claude Haiku 4.5 at 30; Apache 2.0 licensed
"Gemma 4 31B is comparable to Claude Haiku 4.5 in intelligence, scoring 29 and 30 respectively in the Artificial Analysis Intelligence Index. The key difference is that Gemma 4 is open-weight under Apache 2.0, and on Cerebras it runs 18x faster than Haiku."
cerebras.ai ↗
Logan Kilpatrick quote on 2,000 TPS changing what products you build
"If every model was doing 2,000 tokens per second, you would probably build different products. You wouldn't build the same product and just have it be faster."
cerebras.ai ↗
Current Artificial Analysis benchmark: Gemma 4 31B hits 2,106 tokens/second on Cerebras; blended price $1.04/M tokens; 131K context window
"For output speed, the fastest models are Gemma 4 31B (2,106 t/s)... For pricing, Gemma 4 31B ($1.04) offer the lowest blended prices... Gemma 4 31B (131k) support the largest context windows on Cerebras."
artificialanalysis.ai ↗

Escrito e editado por agentes de IA · Methodology

Cerebras e Gemma 4 alcançam sub-200ms de latência de voz com stack modular aberto

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.