GRPO Reduz Erros de Tratamento de Pausas em Agentes Full-Duplex Sem Perda Semântica

Agentes de voz full-duplex já resolveram a latência acústica, mas muitos ainda lutam com sutilezas da conversa, como saber quando pausar, interromper ou ceder. Um método de alinhamento pós-treinamento da Kyutai e Gradium emprega Otimização de Política Relativa de Grupo (GRPO) em dinâmicas de interação, refinando os modelos Moshi e PersonaPlex para melhorar a tomada de turnos, backchanneling, tratamento de pausas e interrupção do usuário sem degradação semântica.

A pilha é detalhada e específica. Moshi, um modelo full-duplex de 7B-parâmetros, utiliza Mimi, um codec de áudio neural de streaming que processa áudio de 24 kHz a 12,5 Hz e 1,1 kbps com um tamanho de quadro de 80 ms, resultando em uma latência teórica de 160 ms e aproximadamente 200 ms de latência prática em um GPU L4, com fluxos de áudio paralelos duplos para o usuário e o agente. O PersonaPlex-7B da NVIDIA, baseado na mesma arquitetura e com um backbone de LLM Helium, inclui treinamento no corpus Fisher English e diálogos sintéticos, com latência que varia de 205 a 265 ms. O novo trabalho aplica GRPO em segmentos curtos de corpora de conversas humanas reais, otimizando quatro eixos de interatividade chave: tratamento de pausas, tomada de turnos, backchanneling e interrupção do usuário. Cada eixo tem uma função de recompensa baseada em regras, e uma recompensa de LLM-judge mantém a qualidade semântica, evitando a degradação vista no trabalho concorrente ASPIRin, que reduziu as pontuações de qualidade semântica do GPT-4o de 3,89 para 3,73 em uma escala de 0 a 5. Os pontos de verificação resultantes, moshika-rl-seamless e personaplex-rl-seamless, estão disponíveis no Hugging Face sob licenças abertas.

O desempenho no Full-Duplex-Bench v1 e v2 é consistente em ambas as famílias de modelos. A capacidade do modelo de diferenciar entre pausas em meio à fala e verdadeiras rendas de turnos reduz significativamente a taxa de tomada de controle de tratamento de pausas, abordando o modo de falha dos sistemas anteriores como o dGSLM que tratava todo silêncio como uma entrega. A latência e a taxa de tomada de turnos melhoram simultaneamente, superando o trade-off usual entre resposta e paciência. O desempenho de backchanneling mantém-se em frequência, latência e adequação, e a latência de interrupção do usuário melhora enquanto as pontuações semânticas excedem o modelo base. O treinamento, que utiliza clipes extraídos curtos, generaliza para diálogos multi-turnos em tempo real, conforme testado contra o GPT-Realtime no Full-Duplex-Bench v2.

O principal desafio operacional está na maquinaria de recompensa. Projetar recompensas baseadas em regras para cada eixo requer engenharia manual, e escalar para comportamentos de interação mais complexos torna-se cada vez mais difícil. O guarda-raias semântico LLM-judge evita a regressão de qualidade, mas adiciona sobrecarga de inferência e outra dependência de serviço no loop de treinamento. Abordagens de RL anteriores como o ORISE cobriam apenas barge-in e backchanneling com anotações automatizadas personalizadas; expandir a cobertura para quatro eixos já estica a abordagem artesanal. Não há também discussão sobre como essas políticas ajustadas desempenham sob ruído de fundo, fala sobreposta ou artefatos do codec que empurram o Mimi fora de sua distribuição de treinamento, uma questão aberta para implantação em produção em escala.

Para arquitetos, a conclusão é clara: a perda supervisionada a nível de token não pode otimizar o timing da conversa, mas um loop GRPO multi-recompensa com um guarda-raias semântico pode refinar a latência, a tomada de turnos e a naturalidade sem comprometer a qualidade da linguagem.

Sources

Post-training alignment using GRPO addresses four canonical interactivity axes: pause handling, turn-taking, backchanneling, and user interruption
"We address the four canonical axes of interactivity: pause handling, turn-taking, backchanneling, and user interruption. For each axis, we extract short audio segments from human conversation corpora and optimize the model with axis-specific reward functions."
arxiv.org ↗
Token-level supervised learning causes excessive silence and ill-timed turn-taking in full-duplex models
"current models are trained solely with supervised learning through token-level likelihood maximization, which does not directly optimize interaction-level behaviors, causing interactivity issues such as excessive silence and ill-timed turn-taking."
arxiv.org ↗
ASPIRin (concurrent work) degraded GPT-4o semantic quality scores from 3.89 to 3.73 when applying GRPO to Moshi; this method improves quality above the baseline
"ASPIRin (Hsiao et al., 2026) reports that its GPT-4o score decreases from the base Moshi model's 3.89 to 3.73 (on a ... 5 scale). In contrast, our method improves this score, demonstrating the effectiveness of incorporating an LLM-based reward."
arxiv.org ↗
RL training yields consistent improvements in both Moshi and PersonaPlex families; pause-handling TOR decreases and turn-taking latency and TOR simultaneously improve
"Within both the Moshi and PersonaPlex families, RL training yields consistent improvements over the respective base models. TOR of pause handling decreases substantially, while latency and TOR of turn-taking simultaneously improve."
arxiv.org ↗
Training on short extracted segments generalizes to real-time multi-turn dialogues on Full-Duplex-Bench v2
"although training is performed on short, extracted segments, we also demonstrate that the improvements generalize to real-time multi-turn dialogues through the evaluation on Full-Duplex-Bench v2"
arxiv.org ↗
Rule-based reward design requires manual engineering effort per axis and becomes difficult to scale
"the rule-based reward design for each interactivity axis requires manual engineering effort and may overlook other aspects of conversational dynamics. As the number of axes grows, this approach becomes increasingly difficult to scale."
arxiv.org ↗
Moshi achieves theoretical latency of 160 ms and ~200 ms practical latency on an L4 GPU, using the Mimi codec at 12.5 Hz and 1.1 kbps
"Moshi achieves a theoretical latency of 160ms (80ms for the frame size of Mimi + 80ms of acoustic delay), with a practical overall latency as low as 200ms on an L4 GPU. Mimi is a neural audio codec that processes 24 kHz audio, down to a 12.5 Hz representation with a bandwidth of 1.1 kbps."
github.com ↗
PersonaPlex-7B-v1 is built on Moshi architecture with the Helium backbone, trained on Fisher English corpus (7,303 conversations, 1,217 hours) plus ~410 hours of synthetic dialogues, with 205–265 ms latency
"NVIDIA used a combination of: Fisher English corpus — 7,303 real telephone conversations (up to 10 minutes each), totaling about 1,217 hours. Synthetic dialogues — approximately 410 hours of generated conversations."
collabnix.com ↗
PersonaPlex sub-second latency of 0.205–0.265 seconds; outperforms Gemini Live, Qwen 2.5 Omni on conversational dynamics benchmarks
"Full-duplex design eliminates the pause-talk-pause cycle of traditional voice assistants with sub-second latency (0.205-0.265s). Outperforms Gemini Live, Qwen 2.5 Omni, and Moshi on conversational dynamics and task adherence benchmarks."
genmedialab.com ↗
ORISE prior work covered only barge-in and backchanneling, not all four interactivity axes
"ORISE effectively improves robustness and accuracy in handling conversational dynamics, including turn-taking, user barge-in, and backchanneling."
openreview.net ↗

Escrito e editado por agentes de IA · Methodology

GRPO Reduz Erros de Tratamento de Pausas em Agentes Full-Duplex Sem Perda Semântica

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.