64 Por cento dos Conflitos de Áudio-Texto nos Modelos de IA São Corrigíveis

Os modelos de áudio-língua frequentemente desconsideram evidências de áudio precisas em favor de texto conflitante, com 64,1 por cento dos casos de falha atribuídos a falhas de arbitragem em vez de codificação de sinal acústico incorreto. Um estudo da Universidade do Nordeste e do Shanghai AI Lab, publicado no arXiv, revela que o sinal de áudio correto pode ser recuperado na inferência sem retreinamento. Os pesquisadores realizaram testes em cinco modelos de áudio-língua e quatro tarefas de conflito, incluindo QA de Áudio, classificação de som vocal, reconhecimento de emoção na fala e o benchmark multilíngue ALME. Eles descobriram que na maioria das amostras de conflito, a branch apenas de áudio escolheu a resposta apoiada acusticamente, enquanto a branch de áudio e texto conjunto seguiu o texto.

A falha foi rastreada para o fluxo residual da posição da resposta. Usando a ativação de patching, os pesquisadores correlacionaram a direção induzida pelo patch com a diferença de score de logit entre a branch de áudio e a branch de áudio e texto conjunto, alcançando uma correlação de Spearman de 0,93. Isso indica que o sinal de reparo é visível nos logits de saída sozinhos, eliminando a necessidade de instrumentar estados ocultos no tempo de serviço.

Os pesquisadores propuseram uma regra de decodificação sem treinamento, Gated Audio Counterfactual Logit Correction (GACL), que interpola entre logits conjuntos e logits de referência do mesmo áudio, controlados pela discordância da branch e a confiabilidade da referência. O GACL requer apenas duas passagens para frente por consulta e nenhuma atualização de parâmetro. Sob um orçamento de queda de fidelidade de cinco pontos percentuais rigoroso, o GACL melhorou o AUC normalizado em 17,8 pontos sobre a melhor base de decodificação contrastiva. Nos hiperparâmetros padrão, ele manteve 91,2 por cento do nAUC@0-10 ajustado e manteve 19 de 20 combinações de modelo-tarefa dentro do orçamento.

A eficácia do GACL transferiu-se para modelos de visão-língua sem modificação. Quando aplicado ao Qwen3-VL-2B no benchmark de arbitragem de visão-texto MC2, o GACL aumentou a precisão em 40,5 pontos percentuais em entradas adversárias; no Qwen3-VL-8B, ganhou 26,5 pontos percentuais, com ativação da porta permanecendo baixa em entradas fiéis, indicando ganhos da intervenção condicional em vez de prioridade de áudio abrangente.

O estudo destaca o desafio de distinguir falhas percepcionais de falhas de arbitragem. O GACL não pode recuperar erros onde o modelo nunca codificou o sinal acústico, e requer uma branch de referência do mesmo áudio confiável que deve ser calculada e armazenada em cache. O custo mínimo de intervenção é duas passagens para frente por solicitação, e enquanto a portagem mantém a penalidade baixa em entradas limpas, qualquer implantação de produção incorre na latência da segunda branch. O risco mais amplo é a vazamento de modalidade em pipelines multimodais, onde a dominância do texto é um viés sistemático na família ALM.

Para arquitetos, a lição chave é tratar conflitos de modalidade como problemas de arbitragem diagnosticáveis a partir dos logits de saída e paralelizar qualquer interpolação corretiva na discordância da branch, intervindo apenas quando o modelo conjunto demonstradamente substitui um sinal limpo.

Sources

64.1% of audio-text conflict samples show a sign flip across five ALMs and four conflict tasks — the audio answer is encoded but overridden during arbitration
"Across five ALMs and four conflict tasks, 64.1% of conflict samples show a sign flip: the same-audio branch prefers the audio-supported answer, whereas the joint branch prefers the text-supported answer."
arxiv.org ↗
Activation patching localizes the reversal to the answer-position residual stream with Spearman ρ=0.93 between patch direction and output logit score difference
"Activation patching further localizes the reversal to answer-position computation, and patching effects closely track output candidate-score differences (Spearman rho=0.93)."
arxiv.org ↗
GACL is a training-free decoding rule requiring two forward passes; under a 5 pp faithfulness-drop budget it improves nAUC by 17.8 points over the best contrastive baseline
"Under a strict 5 pp faithfulness-drop budget, GACL improves nAUC by 17.8 points over the best contrastive baseline and transfers without retuning to vision-text arbitration (up to +40.5 pp)."
arxiv.org ↗
GACL default hyperparameters (λ=0.5, τ_A=0.5) retain 91.2% of tuned nAUC@0–10 and keep 19/20 model-task settings within the 5 pp budget
"τ_A=0.5, still retains 91.2% of tuned nAUC@0–10 and keeps 19/20 model–task settings within the 5 pp budget."
arxiv.org ↗
Applied unchanged to vision-text arbitration, GACL gains +40.5 pp for Qwen3-VL-2B and +26.5 pp for Qwen3-VL-8B with low gate rates on faithful inputs
"GACL achieves +40.5 pp for Qwen3-VL-2B and +26.5 pp for Qwen3-VL-8B at near-zero faithful cost. Gate rates are low on faithful inputs, indicating the gain comes from conditional intervention rather than always prioritizing the reference branch."
arxiv.org ↗
Gemini 2.0 Flash exhibits 16.6% text dominance under audio-text conflict versus 1.6% under text-text conflict — a 10× ratio — even under explicit instructions to trust the audio
"Gemini 2.0 Flash exhibits 16.6% text dominance under audio-text conflict versus 1.6% under text-text conflict with identical reliability cues."
arxiv.org ↗
MCR-Bench found text influence rates exceeding 95% in several model-task conditions; prompting and fine-tuning offer only partial mitigation because models internally detect but don't act on cross-modal inconsistency
"simple prompting techniques—such as bias-aware or audio-prioritized instructions—yield only limited improvements, while supervised finetuning on conflict-rich data offers more promising, though still incomplete, mitigation."
arxiv.org ↗
Complementary audio-specialist heads approach achieves +8 pp on MMAU for Qwen-based LALMs at inference without parameter updates
"this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

64 Por cento dos Conflitos de Áudio-Texto nos Modelos de IA São Corrigíveis

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.