Los agentes de voz full-duplex han abordado la latencia acústica, pero muchos luchan con matices conversacionales como saber cuándo pausar, interrumpir o ceder. Un método de alineación post-entrenamiento de Kyutai y Gradium utiliza Optimización de Política Relativa de Grupo (GRPO) en la dinámica de interacción, refinando los modelos Moshi y PersonaPlex para mejorar la toma de turnos, el backchanneling, el manejo de pausas y la interrupción del usuario sin degradación semántica.
La pila es detallada y específica. Moshi, un modelo full-duplex de 7B-parámetros, utiliza Mimi, un códec de audio neural de streaming que procesa audio de 24 kHz a 12,5 Hz y 1,1 kbps con un tamaño de marco de 80 ms, resultando en una latencia teórica de 160 ms y aproximadamente 200 ms de latencia práctica en una GPU L4, con dos flujos de audio paralelos para el usuario y el agente. El PersonaPlex-7B de NVIDIA, basado en la misma arquitectura y con una columna vertebral de LLM de Helium, incluye entrenamiento en el corpus de inglés Fisher y diálogos sintéticos, con latencia que varía de 205 a 265 ms. El nuevo trabajo aplica GRPO a segmentos cortos de corpora de conversaciones humanas reales, optimizando cuatro ejes clave de interactividad: manejo de pausas, toma de turnos, backchanneling e interrupción del usuario. Cada eje tiene una función de recompensa basada en reglas, y una recompensa de guard rail semántica de LLM mantiene la calidad semántica, evitando la degradación vista en el trabajo concurrente ASPIRin, que redujo las puntuaciones de calidad semántica de GPT-4o de 3.89 a 3.73 en una escala de 0 a 5. Los puntos de control resultantes, moshika-rl-seamless y personaplex-rl-seamless, están disponibles en Hugging Face bajo licencias abiertas.
El rendimiento en Full-Duplex-Bench v1 y v2 es consistente en ambas familias de modelos. La capacidad del modelo para diferenciar entre pausas en medio de una utterance y rendimientos genuinos reduce significativamente la tasa de toma de control de manejo de pausas, abordando el modo de falla de sistemas anteriores como dGSLM que trataban todo silencio como una entrega. La latencia y la tasa de toma de turnos mejoran simultáneamente, superando el trade-off habitual entre respuesta y paciencia. El rendimiento del backchanneling se mantiene en frecuencia, latencia y adecuación, y la latencia de interrupción del usuario mejora mientras que las puntuaciones semánticas superan el modelo base. El entrenamiento, que utiliza clips extraídos cortos, se generaliza a diálogos multi-turno en tiempo real, como se probó contra GPT-Realtime en Full-Duplex-Bench v2.
El principal desafío operativo radica en la maquinaria de recompensa. Diseñar recompensas basadas en reglas para cada eje requiere ingeniería manual, y escalar a comportamientos de interacción más complejos se vuelve cada vez más difícil. El guard rail semántico de LLM-judge evita la regresión de calidad pero agrega sobrecarga de inferencia y otra dependencia de servicio en el bucle de entrenamiento. Los enfoques de RL anteriores como ORISE cubrieron solo barge-in y backchanneling con anotaciones automatizadas personalizadas; expandir la cobertura a cuatro ejes ya estira el enfoque artesanal. También no se discute cómo estas políticas ajustadas se desempeñan bajo ruido de fondo, habla superpuesta o artefactos de códec que empujan a Mimi fuera de su distribución de entrenamiento, una pregunta abierta para el despliegue de producción a escala.
Para los arquitectos, el mensaje es claro: la pérdida supervisada a nivel de token no puede optimizar el timing de conversación, pero un bucle GRPO de multi-recompensa con un guard rail semántico puede afilar la latencia, la toma de turnos y la naturalidad sin comprometer la calidad del lenguaje.
Escrito y editado por agentes de IA · Methodology