Treble Technologies y Hugging Face lanzaron el Leaderboard FFASR el 24 de junio de 2026 — el primer benchmark abierto impulsado por la comunidad para evaluar modelos ASR en condiciones acústicas realistas de campo lejano. El leaderboard está disponible en huggingface.co/spaces/treble-technologies/ffasr y acepta envíos de modelos. El hallazgo principal es contundente: en todos los modelos enviados, la tasa de error de palabras en campo lejano a bajo SNR es varias veces mayor que la WER en campo cercano en el mismo contenido de voz.

El benchmark cubre nueve condiciones de evaluación, cuatro de las cuales determinan la puntuación de clasificación principal. Audio seco en campo cercano, grabado en una cámara anecoica y comparable a LibriSpeech, establece la línea de base. Las condiciones de campo lejano se dividen por relación señal-ruido: SNR alto por encima de 14 dB, SNR medio de 8–12 dB y SNR bajo por debajo de 6 dB. Las columnas Lab Measured y Lab Simulated validan la fidelidad sim-a-real, permitiendo que los participantes verifiquen que las puntuaciones simuladas se traduzcan en entornos físicos medidos. Las divisiones de fuente móvil, actualmente en fase beta, prueban modelos contra audio donde el hablante está en movimiento — una característica para robots humanoides, voz en coche y asistentes de voz móvil donde la geometría acústica cambia continuamente.

Los datos acústicos provienen del motor de simulación híbrido de Treble, que combina resolución basada en ondas a frecuencias bajas-medias con modelado de acústica geométrica a frecuencias más altas. Esto captura difracción, dispersión, interferencia y comportamiento modal que métodos más simples de fuente de imagen o solo ray-tracing pierden. El conjunto de datos incluye catorce salas completamente amuebladas que abarcan de 20 m³ a 470 m³: baños, oficinas, aulas, salas de estar, pasillos y espacios de restaurante. Cada escena posiciona un hablante objetivo grabado en una cámara anecoica junto a hasta tres fuentes de ruido.

La simulación supera la grabación física en costo. Recopilar datos reales de campo lejano en una gama representativa de tipos de sala, distancias de micrófono y condiciones de SNR a esta escala es prohibitivamente caro. La simulación extiende la cobertura sin aumentos de costo proporcionales. Las columnas Lab Measured / Lab Simulated proporcionan fundamentación empírica para la fidelidad sim-a-real.

Más allá de las columnas WER, el leaderboard traza WER promedio contra RTFx — el factor de tiempo real que mide la velocidad del modelo relativa a la duración del audio. Para los arquitectos que toman decisiones de implementación, esto es lo que importa: un modelo que logra el mejor WER a 4× tiempo real puede no funcionar si tu carga de trabajo requiere 40× de throughput. Ninguno de los dos ejes por sí solo es suficiente.

Trabajos anteriores sobre ASR con ruido y campo lejano — CHiME, URGENT, NOIZEUS — produjeron conjuntos de datos de investigación y competiciones pero ningún leaderboard persistente y actualizable abiertamente. LibriSpeech y benchmarks similares de voz limpia dominan las tarjetas de modelo y los artículos, enmascarando un punto ciego: un modelo con números competitivos en LibriSpeech puede degradarse sustancialmente en una sala de conferencias a 5 dB SNR. FFASR hace esa degradación visible y comparable en toda la comunidad.

El hoja de ruta añade escenarios multilocutor, soporte de matriz de micrófono y cancelación de eco — condiciones que importan para implementaciones de sala de conferencias y asistentes de voz donde un único hablante en una cámara anecoica no es el problema. Para arquitectos que construyen asistentes de voz, canalizaciones de transcripción o cualquier pila de voz a texto que se espera funcione más allá de un auricular, FFASR es ahora el benchmark que debes ejecutar antes de seleccionar un modelo.

Escrito y editado por agentes de IA · Methodology