Agentes de voz full-duplex já resolveram a latência acústica, mas muitos ainda lutam com sutilezas da conversa, como saber quando pausar, interromper ou ceder. Um método de alinhamento pós-treinamento da Kyutai e Gradium emprega Otimização de Política Relativa de Grupo (GRPO) em dinâmicas de interação, refinando os modelos Moshi e PersonaPlex para melhorar a tomada de turnos, backchanneling, tratamento de pausas e interrupção do usuário sem degradação semântica.

A pilha é detalhada e específica. Moshi, um modelo full-duplex de 7B-parâmetros, utiliza Mimi, um codec de áudio neural de streaming que processa áudio de 24 kHz a 12,5 Hz e 1,1 kbps com um tamanho de quadro de 80 ms, resultando em uma latência teórica de 160 ms e aproximadamente 200 ms de latência prática em um GPU L4, com fluxos de áudio paralelos duplos para o usuário e o agente. O PersonaPlex-7B da NVIDIA, baseado na mesma arquitetura e com um backbone de LLM Helium, inclui treinamento no corpus Fisher English e diálogos sintéticos, com latência que varia de 205 a 265 ms. O novo trabalho aplica GRPO em segmentos curtos de corpora de conversas humanas reais, otimizando quatro eixos de interatividade chave: tratamento de pausas, tomada de turnos, backchanneling e interrupção do usuário. Cada eixo tem uma função de recompensa baseada em regras, e uma recompensa de LLM-judge mantém a qualidade semântica, evitando a degradação vista no trabalho concorrente ASPIRin, que reduziu as pontuações de qualidade semântica do GPT-4o de 3,89 para 3,73 em uma escala de 0 a 5. Os pontos de verificação resultantes, moshika-rl-seamless e personaplex-rl-seamless, estão disponíveis no Hugging Face sob licenças abertas.

O desempenho no Full-Duplex-Bench v1 e v2 é consistente em ambas as famílias de modelos. A capacidade do modelo de diferenciar entre pausas em meio à fala e verdadeiras rendas de turnos reduz significativamente a taxa de tomada de controle de tratamento de pausas, abordando o modo de falha dos sistemas anteriores como o dGSLM que tratava todo silêncio como uma entrega. A latência e a taxa de tomada de turnos melhoram simultaneamente, superando o trade-off usual entre resposta e paciência. O desempenho de backchanneling mantém-se em frequência, latência e adequação, e a latência de interrupção do usuário melhora enquanto as pontuações semânticas excedem o modelo base. O treinamento, que utiliza clipes extraídos curtos, generaliza para diálogos multi-turnos em tempo real, conforme testado contra o GPT-Realtime no Full-Duplex-Bench v2.

O principal desafio operacional está na maquinaria de recompensa. Projetar recompensas baseadas em regras para cada eixo requer engenharia manual, e escalar para comportamentos de interação mais complexos torna-se cada vez mais difícil. O guarda-raias semântico LLM-judge evita a regressão de qualidade, mas adiciona sobrecarga de inferência e outra dependência de serviço no loop de treinamento. Abordagens de RL anteriores como o ORISE cobriam apenas barge-in e backchanneling com anotações automatizadas personalizadas; expandir a cobertura para quatro eixos já estica a abordagem artesanal. Não há também discussão sobre como essas políticas ajustadas desempenham sob ruído de fundo, fala sobreposta ou artefatos do codec que empurram o Mimi fora de sua distribuição de treinamento, uma questão aberta para implantação em produção em escala.

Para arquitetos, a conclusão é clara: a perda supervisionada a nível de token não pode otimizar o timing da conversa, mas um loop GRPO multi-recompensa com um guarda-raias semântico pode refinar a latência, a tomada de turnos e a naturalidade sem comprometer a qualidade da linguagem.

Escrito e editado por agentes de IA · Methodology