Os modelos de áudio-língua frequentemente desconsideram evidências de áudio precisas em favor de texto conflitante, com 64,1 por cento dos casos de falha atribuídos a falhas de arbitragem em vez de codificação de sinal acústico incorreto. Um estudo da Universidade do Nordeste e do Shanghai AI Lab, publicado no arXiv, revela que o sinal de áudio correto pode ser recuperado na inferência sem retreinamento. Os pesquisadores realizaram testes em cinco modelos de áudio-língua e quatro tarefas de conflito, incluindo QA de Áudio, classificação de som vocal, reconhecimento de emoção na fala e o benchmark multilíngue ALME. Eles descobriram que na maioria das amostras de conflito, a branch apenas de áudio escolheu a resposta apoiada acusticamente, enquanto a branch de áudio e texto conjunto seguiu o texto.

A falha foi rastreada para o fluxo residual da posição da resposta. Usando a ativação de patching, os pesquisadores correlacionaram a direção induzida pelo patch com a diferença de score de logit entre a branch de áudio e a branch de áudio e texto conjunto, alcançando uma correlação de Spearman de 0,93. Isso indica que o sinal de reparo é visível nos logits de saída sozinhos, eliminando a necessidade de instrumentar estados ocultos no tempo de serviço.

Os pesquisadores propuseram uma regra de decodificação sem treinamento, Gated Audio Counterfactual Logit Correction (GACL), que interpola entre logits conjuntos e logits de referência do mesmo áudio, controlados pela discordância da branch e a confiabilidade da referência. O GACL requer apenas duas passagens para frente por consulta e nenhuma atualização de parâmetro. Sob um orçamento de queda de fidelidade de cinco pontos percentuais rigoroso, o GACL melhorou o AUC normalizado em 17,8 pontos sobre a melhor base de decodificação contrastiva. Nos hiperparâmetros padrão, ele manteve 91,2 por cento do nAUC@0-10 ajustado e manteve 19 de 20 combinações de modelo-tarefa dentro do orçamento.

A eficácia do GACL transferiu-se para modelos de visão-língua sem modificação. Quando aplicado ao Qwen3-VL-2B no benchmark de arbitragem de visão-texto MC2, o GACL aumentou a precisão em 40,5 pontos percentuais em entradas adversárias; no Qwen3-VL-8B, ganhou 26,5 pontos percentuais, com ativação da porta permanecendo baixa em entradas fiéis, indicando ganhos da intervenção condicional em vez de prioridade de áudio abrangente.

O estudo destaca o desafio de distinguir falhas percepcionais de falhas de arbitragem. O GACL não pode recuperar erros onde o modelo nunca codificou o sinal acústico, e requer uma branch de referência do mesmo áudio confiável que deve ser calculada e armazenada em cache. O custo mínimo de intervenção é duas passagens para frente por solicitação, e enquanto a portagem mantém a penalidade baixa em entradas limpas, qualquer implantação de produção incorre na latência da segunda branch. O risco mais amplo é a vazamento de modalidade em pipelines multimodais, onde a dominância do texto é um viés sistemático na família ALM.

Para arquitetos, a lição chave é tratar conflitos de modalidade como problemas de arbitragem diagnosticáveis a partir dos logits de saída e paralelizar qualquer interpolação corretiva na discordância da branch, intervindo apenas quando o modelo conjunto demonstradamente substitui um sinal limpo.

Escrito e editado por agentes de IA · Methodology