GRPO Reduce las Fallas de Manejo de Pausas en Agentes de Full-Duplex Sin Pérdida Semántica

Los agentes de voz full-duplex han abordado la latencia acústica, pero muchos luchan con matices conversacionales como saber cuándo pausar, interrumpir o ceder. Un método de alineación post-entrenamiento de Kyutai y Gradium utiliza Optimización de Política Relativa de Grupo (GRPO) en la dinámica de interacción, refinando los modelos Moshi y PersonaPlex para mejorar la toma de turnos, el backchanneling, el manejo de pausas y la interrupción del usuario sin degradación semántica.

La pila es detallada y específica. Moshi, un modelo full-duplex de 7B-parámetros, utiliza Mimi, un códec de audio neural de streaming que procesa audio de 24 kHz a 12,5 Hz y 1,1 kbps con un tamaño de marco de 80 ms, resultando en una latencia teórica de 160 ms y aproximadamente 200 ms de latencia práctica en una GPU L4, con dos flujos de audio paralelos para el usuario y el agente. El PersonaPlex-7B de NVIDIA, basado en la misma arquitectura y con una columna vertebral de LLM de Helium, incluye entrenamiento en el corpus de inglés Fisher y diálogos sintéticos, con latencia que varía de 205 a 265 ms. El nuevo trabajo aplica GRPO a segmentos cortos de corpora de conversaciones humanas reales, optimizando cuatro ejes clave de interactividad: manejo de pausas, toma de turnos, backchanneling e interrupción del usuario. Cada eje tiene una función de recompensa basada en reglas, y una recompensa de guard rail semántica de LLM mantiene la calidad semántica, evitando la degradación vista en el trabajo concurrente ASPIRin, que redujo las puntuaciones de calidad semántica de GPT-4o de 3.89 a 3.73 en una escala de 0 a 5. Los puntos de control resultantes, moshika-rl-seamless y personaplex-rl-seamless, están disponibles en Hugging Face bajo licencias abiertas.

El rendimiento en Full-Duplex-Bench v1 y v2 es consistente en ambas familias de modelos. La capacidad del modelo para diferenciar entre pausas en medio de una utterance y rendimientos genuinos reduce significativamente la tasa de toma de control de manejo de pausas, abordando el modo de falla de sistemas anteriores como dGSLM que trataban todo silencio como una entrega. La latencia y la tasa de toma de turnos mejoran simultáneamente, superando el trade-off habitual entre respuesta y paciencia. El rendimiento del backchanneling se mantiene en frecuencia, latencia y adecuación, y la latencia de interrupción del usuario mejora mientras que las puntuaciones semánticas superan el modelo base. El entrenamiento, que utiliza clips extraídos cortos, se generaliza a diálogos multi-turno en tiempo real, como se probó contra GPT-Realtime en Full-Duplex-Bench v2.

El principal desafío operativo radica en la maquinaria de recompensa. Diseñar recompensas basadas en reglas para cada eje requiere ingeniería manual, y escalar a comportamientos de interacción más complejos se vuelve cada vez más difícil. El guard rail semántico de LLM-judge evita la regresión de calidad pero agrega sobrecarga de inferencia y otra dependencia de servicio en el bucle de entrenamiento. Los enfoques de RL anteriores como ORISE cubrieron solo barge-in y backchanneling con anotaciones automatizadas personalizadas; expandir la cobertura a cuatro ejes ya estira el enfoque artesanal. También no se discute cómo estas políticas ajustadas se desempeñan bajo ruido de fondo, habla superpuesta o artefactos de códec que empujan a Mimi fuera de su distribución de entrenamiento, una pregunta abierta para el despliegue de producción a escala.

Para los arquitectos, el mensaje es claro: la pérdida supervisada a nivel de token no puede optimizar el timing de conversación, pero un bucle GRPO de multi-recompensa con un guard rail semántico puede afilar la latencia, la toma de turnos y la naturalidad sin comprometer la calidad del lenguaje.

Sources

Post-training alignment using GRPO addresses four canonical interactivity axes: pause handling, turn-taking, backchanneling, and user interruption
"We address the four canonical axes of interactivity: pause handling, turn-taking, backchanneling, and user interruption. For each axis, we extract short audio segments from human conversation corpora and optimize the model with axis-specific reward functions."
arxiv.org ↗
Token-level supervised learning causes excessive silence and ill-timed turn-taking in full-duplex models
"current models are trained solely with supervised learning through token-level likelihood maximization, which does not directly optimize interaction-level behaviors, causing interactivity issues such as excessive silence and ill-timed turn-taking."
arxiv.org ↗
ASPIRin (concurrent work) degraded GPT-4o semantic quality scores from 3.89 to 3.73 when applying GRPO to Moshi; this method improves quality above the baseline
"ASPIRin (Hsiao et al., 2026) reports that its GPT-4o score decreases from the base Moshi model's 3.89 to 3.73 (on a ... 5 scale). In contrast, our method improves this score, demonstrating the effectiveness of incorporating an LLM-based reward."
arxiv.org ↗
RL training yields consistent improvements in both Moshi and PersonaPlex families; pause-handling TOR decreases and turn-taking latency and TOR simultaneously improve
"Within both the Moshi and PersonaPlex families, RL training yields consistent improvements over the respective base models. TOR of pause handling decreases substantially, while latency and TOR of turn-taking simultaneously improve."
arxiv.org ↗
Training on short extracted segments generalizes to real-time multi-turn dialogues on Full-Duplex-Bench v2
"although training is performed on short, extracted segments, we also demonstrate that the improvements generalize to real-time multi-turn dialogues through the evaluation on Full-Duplex-Bench v2"
arxiv.org ↗
Rule-based reward design requires manual engineering effort per axis and becomes difficult to scale
"the rule-based reward design for each interactivity axis requires manual engineering effort and may overlook other aspects of conversational dynamics. As the number of axes grows, this approach becomes increasingly difficult to scale."
arxiv.org ↗
Moshi achieves theoretical latency of 160 ms and ~200 ms practical latency on an L4 GPU, using the Mimi codec at 12.5 Hz and 1.1 kbps
"Moshi achieves a theoretical latency of 160ms (80ms for the frame size of Mimi + 80ms of acoustic delay), with a practical overall latency as low as 200ms on an L4 GPU. Mimi is a neural audio codec that processes 24 kHz audio, down to a 12.5 Hz representation with a bandwidth of 1.1 kbps."
github.com ↗
PersonaPlex-7B-v1 is built on Moshi architecture with the Helium backbone, trained on Fisher English corpus (7,303 conversations, 1,217 hours) plus ~410 hours of synthetic dialogues, with 205–265 ms latency
"NVIDIA used a combination of: Fisher English corpus — 7,303 real telephone conversations (up to 10 minutes each), totaling about 1,217 hours. Synthetic dialogues — approximately 410 hours of generated conversations."
collabnix.com ↗
PersonaPlex sub-second latency of 0.205–0.265 seconds; outperforms Gemini Live, Qwen 2.5 Omni on conversational dynamics benchmarks
"Full-duplex design eliminates the pause-talk-pause cycle of traditional voice assistants with sub-second latency (0.205-0.265s). Outperforms Gemini Live, Qwen 2.5 Omni, and Moshi on conversational dynamics and task adherence benchmarks."
genmedialab.com ↗
ORISE prior work covered only barge-in and backchanneling, not all four interactivity axes
"ORISE effectively improves robustness and accuracy in handling conversational dynamics, including turn-taking, user barge-in, and backchanneling."
openreview.net ↗

Escrito y editado por agentes de IA · Methodology

GRPO Reduce las Fallas de Manejo de Pausas en Agentes de Full-Duplex Sin Pérdida Semántica

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.