El 64 Por Ciento de Conflictos Audio-Texto en Modelos de IA Son Solucionables

Los modelos de audio-lenguaje a menudo descartan la evidencia de audio precisa a favor de un texto conflictivo, con el 64,1 por ciento de los casos de falla atribuidos a fallas de arbitraje en lugar de una codificación incorrecta de la señal acústica. Un estudio de la Universidad del Noreste y el Laboratorio de IA de Shanghái, publicado en arXiv, revela que la señal de audio correcta puede recuperarse en la inferencia sin reentrenamiento. Los investigadores llevaron a cabo pruebas en cinco modelos de audio-lenguaje y cuatro tareas de conflicto, incluyendo Audio QA, clasificación de sonidos vocáles, reconocimiento de emociones en el habla y el benchmark multilingüe ALME. Encontraron que en la mayoría de las muestras de conflicto, la rama de solo audio eligió la respuesta respaldada acústicamente, mientras que la rama de audio-texto conjunto siguió el texto.

El fallo se rastreó al flujo residual de la posición de la respuesta. Utilizando el parcheo de activación, los investigadores correlacionaron la dirección del parche con la diferencia de puntuación logit entre la rama de audio y la rama conjunta, logrando una correlación de Spearman de 0,93. Esto indica que la señal de reparación es visible en los logits de salida por sí sola, eliminando la necesidad de instrumentar estados ocultos en tiempo de servicio.

Los investigadores propusieron una regla de decodificación sin entrenamiento, Gated Audio Counterfactual Logit Correction (GACL), que interpola entre logits conjuntos y logits de referencia de mismo audio, controlados por el desacuerdo de la rama y la confiabilidad de la referencia. GACL requiere solo dos pasadas adelante por consulta y sin actualizaciones de parámetros. Bajo un presupuesto estricto de caída de fidelidad de cinco puntos porcentuales, GACL mejoró el AUC normalizado en 17,8 puntos sobre la mejor línea base de decodificación contrastiva. Con los hiperparámetros predeterminados, retuvo el 91,2 por ciento del nAUC@0-10 ajustado y mantuvo 19 de las 20 combinaciones de modelo-tarea dentro del presupuesto.

La eficacia de GACL se transfirió a modelos de visión-lenguaje sin modificación. Al aplicarlo a Qwen3-VL-2B en el benchmark de arbitraje de visión-texto MC2, GACL aumentó la precisión en 40,5 puntos porcentuales en entradas adversarias; en Qwen3-VL-8B, ganó 26,5 puntos porcentuales, con la activación de la puerta permaneciendo baja en entradas fielmente, lo que indica ganancias de la intervención condicional en lugar de una prioridad de audio general.

El estudio resalta el desafío de distinguir fallas perceptivas de fallas de arbitraje. GACL no puede recuperar errores donde el modelo nunca codificó la señal acústica, y requiere una rama de referencia de mismo audio confiable que debe calcularse y almacenarse en caché. El costo mínimo de intervención es dos pasadas adelante por solicitud, y aunque la puerta mantiene la penalización baja en entradas limpas, cualquier implementación de producción incurre en la latencia de la segunda rama. El riesgo más amplio es la fuga de modalidad en tuberías multimodales, donde la dominancia del texto es un sesgo sistemático a lo largo de la familia ALM.

Para los arquitectos, el mensaje clave es tratar los conflictos de modalidad como problemas de arbitraje diagnosables desde los logits de salida y gatear cualquier interpolación correctiva en desacuerdo de la rama, interviniendo solo cuando el modelo conjunto demuestre que sobrescribe una señal limpia.

Sources

64.1% of audio-text conflict samples show a sign flip across five ALMs and four conflict tasks — the audio answer is encoded but overridden during arbitration
"Across five ALMs and four conflict tasks, 64.1% of conflict samples show a sign flip: the same-audio branch prefers the audio-supported answer, whereas the joint branch prefers the text-supported answer."
arxiv.org ↗
Activation patching localizes the reversal to the answer-position residual stream with Spearman ρ=0.93 between patch direction and output logit score difference
"Activation patching further localizes the reversal to answer-position computation, and patching effects closely track output candidate-score differences (Spearman rho=0.93)."
arxiv.org ↗
GACL is a training-free decoding rule requiring two forward passes; under a 5 pp faithfulness-drop budget it improves nAUC by 17.8 points over the best contrastive baseline
"Under a strict 5 pp faithfulness-drop budget, GACL improves nAUC by 17.8 points over the best contrastive baseline and transfers without retuning to vision-text arbitration (up to +40.5 pp)."
arxiv.org ↗
GACL default hyperparameters (λ=0.5, τ_A=0.5) retain 91.2% of tuned nAUC@0–10 and keep 19/20 model-task settings within the 5 pp budget
"τ_A=0.5, still retains 91.2% of tuned nAUC@0–10 and keeps 19/20 model–task settings within the 5 pp budget."
arxiv.org ↗
Applied unchanged to vision-text arbitration, GACL gains +40.5 pp for Qwen3-VL-2B and +26.5 pp for Qwen3-VL-8B with low gate rates on faithful inputs
"GACL achieves +40.5 pp for Qwen3-VL-2B and +26.5 pp for Qwen3-VL-8B at near-zero faithful cost. Gate rates are low on faithful inputs, indicating the gain comes from conditional intervention rather than always prioritizing the reference branch."
arxiv.org ↗
Gemini 2.0 Flash exhibits 16.6% text dominance under audio-text conflict versus 1.6% under text-text conflict — a 10× ratio — even under explicit instructions to trust the audio
"Gemini 2.0 Flash exhibits 16.6% text dominance under audio-text conflict versus 1.6% under text-text conflict with identical reliability cues."
arxiv.org ↗
MCR-Bench found text influence rates exceeding 95% in several model-task conditions; prompting and fine-tuning offer only partial mitigation because models internally detect but don't act on cross-modal inconsistency
"simple prompting techniques—such as bias-aware or audio-prioritized instructions—yield only limited improvements, while supervised finetuning on conflict-rich data offers more promising, though still incomplete, mitigation."
arxiv.org ↗
Complementary audio-specialist heads approach achieves +8 pp on MMAU for Qwen-based LALMs at inference without parameter updates
"this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El 64 Por Ciento de Conflictos Audio-Texto en Modelos de IA Son Solucionables

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.