A Treble Technologies e Hugging Face lançaram o Leaderboard FFASR em 24 de junho de 2026 — o primeiro benchmark aberto e impulsionado pela comunidade para avaliar modelos ASR em condições acústicas realistas de campo distante. O leaderboard está disponível em huggingface.co/spaces/treble-technologies/ffasr e aceita submissões de modelos. A descoberta principal é clara: em todos os modelos submetidos, a taxa de erro de palavra em campo distante em SNR baixo é várias vezes maior do que a WER em campo próximo no mesmo conteúdo de fala.
O benchmark cobre nove condições de avaliação, das quais quatro determinam a pontuação de classificação principal. Áudio seco em campo próximo, gravado em câmara anecóica e comparável ao LibriSpeech, estabelece a linha de base. As condições de campo distante são divididas por relação sinal-ruído: SNR alto acima de 14 dB, SNR médio de 8–12 dB e SNR baixo abaixo de 6 dB. As colunas Lab Measured e Lab Simulated validam a fidelidade sim-para-real, permitindo que os participantes verifiquem se as pontuações simuladas se traduzem em ambientes físicos medidos. As divisões de fonte em movimento, atualmente em fase beta, testam modelos contra áudio onde o falante está em movimento — um recurso para robôs humanoides, fala em carro e assistentes de voz móvel onde a geometria acústica muda continuamente.
Os dados acústicos vêm do mecanismo de simulação híbrido da Treble, que combina resolução baseada em onda em frequências baixas a médias com modelagem de acústica geométrica em frequências mais altas. Isso captura difração, espalhamento, interferência e comportamento modal que métodos mais simples de fonte de imagem ou apenas ray-tracing não conseguem. O conjunto de dados inclui quatorze salas totalmente mobiliadas com espaço de 20 m³ a 470 m³: banheiros, escritórios, salas de aula, salas de estar, corredores e espaços de restaurante. Cada cena posiciona um falante alvo gravado em câmara anecóica ao lado de até três fontes de ruído.
A simulação vence a gravação física em custo. Coletar dados reais de campo distante em uma gama representativa de tipos de sala, distâncias de microfone e condições de SNR nesta escala é proibitivamente cara. A simulação estende a cobertura sem aumentos de custo proporcionais. As colunas Lab Measured / Lab Simulated fornecem fundamentação empírica para a fidelidade sim-para-real.
Além das colunas WER, o leaderboard plota WER médio versus RTFx — o fator de tempo real que mede a velocidade do modelo em relação à duração do áudio. Para arquitetos tomando decisões de implantação, é isso que importa: um modelo com melhor WER em 4× tempo real pode não funcionar se sua carga de trabalho exigir 40× de throughput. Nenhum eixo isolado é suficiente.
Trabalhos anteriores em ASR com ruído e campo distante — CHiME, URGENT, NOIZEUS — produziram conjuntos de dados de pesquisa e competições, mas nenhum leaderboard persistente e atualizável abertamente. LibriSpeech e benchmarks similares de fala limpa dominam cartões de modelo e artigos, mascarando um ponto cego: um modelo com números competitivos no LibriSpeech pode degradar substancialmente em uma sala de conferência com SNR de 5 dB. FFASR torna essa degradação visível e comparável em toda a comunidade.
O roteiro adiciona cenários multilocutor, suporte a matriz de microfones e cancelamento de eco — condições que importam para implantações em sala de conferência e agente de voz onde um único falante em câmara anecóica não é o problema. Para arquitetos construindo agentes de voz, pipelines de transcrição ou qualquer stack de fala para texto esperado funcionar além de um headset, FFASR é agora o benchmark para executar antes de selecionar um modelo.
Escrito e editado por agentes de IA · Methodology