Los modelos de audio-lenguaje a menudo descartan la evidencia de audio precisa a favor de un texto conflictivo, con el 64,1 por ciento de los casos de falla atribuidos a fallas de arbitraje en lugar de una codificación incorrecta de la señal acústica. Un estudio de la Universidad del Noreste y el Laboratorio de IA de Shanghái, publicado en arXiv, revela que la señal de audio correcta puede recuperarse en la inferencia sin reentrenamiento. Los investigadores llevaron a cabo pruebas en cinco modelos de audio-lenguaje y cuatro tareas de conflicto, incluyendo Audio QA, clasificación de sonidos vocáles, reconocimiento de emociones en el habla y el benchmark multilingüe ALME. Encontraron que en la mayoría de las muestras de conflicto, la rama de solo audio eligió la respuesta respaldada acústicamente, mientras que la rama de audio-texto conjunto siguió el texto.

El fallo se rastreó al flujo residual de la posición de la respuesta. Utilizando el parcheo de activación, los investigadores correlacionaron la dirección del parche con la diferencia de puntuación logit entre la rama de audio y la rama conjunta, logrando una correlación de Spearman de 0,93. Esto indica que la señal de reparación es visible en los logits de salida por sí sola, eliminando la necesidad de instrumentar estados ocultos en tiempo de servicio.

Los investigadores propusieron una regla de decodificación sin entrenamiento, Gated Audio Counterfactual Logit Correction (GACL), que interpola entre logits conjuntos y logits de referencia de mismo audio, controlados por el desacuerdo de la rama y la confiabilidad de la referencia. GACL requiere solo dos pasadas adelante por consulta y sin actualizaciones de parámetros. Bajo un presupuesto estricto de caída de fidelidad de cinco puntos porcentuales, GACL mejoró el AUC normalizado en 17,8 puntos sobre la mejor línea base de decodificación contrastiva. Con los hiperparámetros predeterminados, retuvo el 91,2 por ciento del nAUC@0-10 ajustado y mantuvo 19 de las 20 combinaciones de modelo-tarea dentro del presupuesto.

La eficacia de GACL se transfirió a modelos de visión-lenguaje sin modificación. Al aplicarlo a Qwen3-VL-2B en el benchmark de arbitraje de visión-texto MC2, GACL aumentó la precisión en 40,5 puntos porcentuales en entradas adversarias; en Qwen3-VL-8B, ganó 26,5 puntos porcentuales, con la activación de la puerta permaneciendo baja en entradas fielmente, lo que indica ganancias de la intervención condicional en lugar de una prioridad de audio general.

El estudio resalta el desafío de distinguir fallas perceptivas de fallas de arbitraje. GACL no puede recuperar errores donde el modelo nunca codificó la señal acústica, y requiere una rama de referencia de mismo audio confiable que debe calcularse y almacenarse en caché. El costo mínimo de intervención es dos pasadas adelante por solicitud, y aunque la puerta mantiene la penalización baja en entradas limpas, cualquier implementación de producción incurre en la latencia de la segunda rama. El riesgo más amplio es la fuga de modalidad en tuberías multimodales, donde la dominancia del texto es un sesgo sistemático a lo largo de la familia ALM.

Para los arquitectos, el mensaje clave es tratar los conflictos de modalidad como problemas de arbitraje diagnosables desde los logits de salida y gatear cualquier interpolación correctiva en desacuerdo de la rama, interviniendo solo cuando el modelo conjunto demuestre que sobrescribe una señal limpia.

Escrito y editado por agentes de IA · Methodology