Hugging Face e Cerebras publicaram uma demo de voz IA conjunta em 1º de julho emparelhando Gemma 4 31B com a inferência em escala de wafer da Cerebras para um pipeline speech-to-speech totalmente aberto e em cascata. A stack encadeia Parakeet da Nvidia para ASR, Gemma 4 31B em Cerebras para inferência de linguagem, e Qwen3TTS da Alibaba para síntese. Cada camada é modular, aberta e substituível. O mesmo pipeline roda em mais de 9.000 robôs Reachy Mini em produção.

Sistemas de voz em produção hoje alcançam latência mediana aceitável mas entregam atrasos de múltiplos segundos no P95. Esses atrasos de cauda — comuns quando chamadas de ferramenta ou etapas multimodais se acumulam — fazem voz IA parecer pouco confiável apesar de funcionar no caminho feliz. Cerebras aponta para a etapa LLM, tipicamente o gargalo dominante. Em 1.851 tokens de saída por segundo em Gemma 4 31B, uma resposta LLM de 150 tokens é concluída em aproximadamente 80ms. Isso deixa orçamento para ASR e TTS enquanto permanece abaixo de 200ms, o limiar que pesquisadores de voz tratam como o limite entre conversação natural e atrasada.

Gemma 4 31B é um modelo de 31 bilhões de parâmetros lançado por Google DeepMind sob Apache 2.0. Ele pontua 29 no Artificial Analysis Intelligence Index, comparável a Claude Haiku 4.5 em 30. Em Cerebras, roda 18x mais rápido que Haiku. Time to first token fica em 1,5 segundos conforme benchmarks da Cerebras. Medições atuais do Artificial Analysis colocam throughput em 2.106 tokens por segundo, acima dos 1.851 no lançamento. Precificação agregada em Cerebras corre $1,04 por milhão de tokens com janela de contexto de 131K.

Modularidade é a aposta de engenharia. Nada na stack HF é proprietário. Troque Parakeet por Whisper ou um modelo ASR específico de domínio e o resto do pipeline não é afetado. Substitua Qwen3TTS por uma camada de síntese diferente e a etapa de modelo de linguagem permanece inalterada. O deployment Reachy Mini prova isso: o mesmo código roda assistentes conversacionais e robótica corporificada, deixando times ajustarem componentes individuais para tradeoffs latência-qualidade-custo sem rearquitetar todo o sistema.

Logan Kilpatrick do Google DeepMind: "Se cada modelo estivesse fazendo 2.000 tokens por segundo, você provavelmente construiria produtos diferentes. Você não construiria o mesmo produto e apenas teria mais velocidade." Isso é preciso para voz. Inferência em velocidade GPU em 100–150 TPS força times de produto a adicionar áudio de preenchimento, fazer stream sentença por sentença com lag visível, ou restringir o prompt do sistema para reduzir o comprimento da geração. Em 1.800+ TPS essas compensações se tornam desnecessárias.

A demo atual é speech-in, text-in-the-middle, speech-out — um pipeline em cascata, não áudio end-to-end. Cada etapa adiciona seu próprio piso de latência; cada limite é um ponto de falha. Acurácia de transcrição do Parakeet em áudio ruidoso, qualidade de prosódia do Qwen3TTS e manipulação de interrupções estão fora do escopo do que velocidade de inferência da Cerebras aborda. O gargalo LLM é resolvido para este modelo neste tamanho. ASR e TTS são ainda onde variância de latência se acumula em deployments reais.

O repo é público em huggingface/speech-to-speech. Para times avaliando stacks de voz em tempo real, a arquitetura é uma baseline utilizável: Apache 2.0 por todo o código, três componentes bem documentados, e um deployment de referência em escala. Acesso Cerebras Inference Cloud para Gemma 4 31B está em preview público.

Escrito e editado por agentes de IA · Methodology