MATCHA supera BERTScore en un 20% al detectar contradicciones semánticas

La Universidad de Tübingen ha presentado MATCHA, una métrica de evaluación automática que supera a ROUGE-L en un 18,38% y a BERTScore en un 20,82% en precisión de coincidencia en el benchmark zero-shot TruthfulQA. A diferencia de las métricas tradicionales, MATCHA se centra en la correlación con el juicio humano en lugar de las diferencias en la puntuación bruta. Identifica contradicciones semánticas que las métricas actuales a menudo pasan por alto, como se demuestra en un artículo de arXiv donde BERTScore asigna puntuaciones de 82,00 a un resumen correto y 77,20 a su contradicción directa, una brecha de 4,80 puntos, con márgenes discriminativos normalizados (NΔ) tan estrechos como 3,44 en MultiNLI y 2,51 en TruthfulQA. MATCHA, sin embargo, penaliza explícitamente las contradicciones a través de un objetivo contrastivo.

MATCHA está construido sobre una arquitectura contrastiva que comprende ContrastiveModel, SenseNetwork, NoMixBlock y componentes MLP. Se entrena con pérdida de margen de tripleta en similitud coseno a través de 15 fuentes de datos, como se especifica en el archivo configs/mixed.json del repositorio, utilizando HuggingFace Accelerate. La métrica opera a través de un mecanismo de doble vista, midiendo la proximidad a una referencia de oro y la distancia de una contradicción contrafactual generada adversariamente. La versión de código abierto incluye tres scripts de entrenamiento y arneses de evaluación para diversas benchmarks, con atribución a nivel de token proporcionada a través de Integrated Gradients de Captum.

El artículo destaca el modo de fallo de las métricas basadas en incrustaciones, donde las salidas semánticamente incorrectas casi coinciden con las puntuaciones de las salidas correctas. La evaluación a través de ocho benchmarks públicos muestra que la brecha correcta-incorrecta de BERTScore es mínima, y MATCHA supera a todos los 23 modelos de incrustación probados en su comparación ampliada de estilo BERTScore al producir el margen discriminativo más amplio.

Aunque no se presenta evidencia de despliegue en producción, el requisito de MATCHA de una pasada de modelo entrenado y generación de contrafactuales emparejados implica un pie de imprenta más pesado en comparación con la similitud coseno de incrustación rápida o pases de superposición de tokens. El repositorio proporciona scripts de entrenamiento y un reportero eval_matcha.py, pero carece de una pila de servicio o benchmarks de carga.

La integración en la cadena de montaje es desafiante, ya que la mayoría de las pilas de evaluación de producción están configuradas para BLEU, ROUGE o similitud coseno de incrustación. Adoptar MATCHA requeriría pasos adicionales, como la gestión de la formateo de entrada tripleta y posiblemente la regeneración de contradicciones contrafactuales para dominios propietarios. La mejora sobre ROUGE-L se basa en la correlación con los juicios humanos, no en la selección de modelo downstream o tasas de victoria en pruebas A/B, lo que hace que el caso de negocio por una computación adicional dependa de si la detección de contradicciones es un cuello de botella actual de evaluación.

Sources

MATCHA outperforms ROUGE-L by 18.38% and BERTScore by 20.82% on TruthfulQA — both are percentage improvements in matching accuracy (human-judgment correlation), not raw-score differences
"this improvement in terms of matching texts with a reference reaches 18.38% over ROUGE-L and 20.82% over BERTScore"
arxiv.org ↗
BERTScore assigns 82.00 to a semantically correct output and 77.20 to its direct contradiction — a 4.80-point absolute gap
"BERTScore: 82.00 / 77.20"
arxiv.org ↗
BERTScore normalized discriminative margin (NΔ) is 3.44 on MultiNLI and 2.51 on TruthfulQA (Table 2)
"BERTScore (84.06, 80.62) 3.44 (83.80, 81.29) 2.51"
arxiv.org ↗
MATCHA evaluated across eight public benchmarks per the paper's abstract
"In eight public benchmarks, MATCHA outperforms popular metrics, compared with human annotations on question-answering, image caption generation, natural language inference, summarization, and semantic textual similarity tasks"
arxiv.org ↗
MATCHA employs a dual-view mechanism measuring proximity to a gold reference and distance from an adversarially generated counterfactual contradiction
"MATCHA employs a dual-view perspective that measures (i) proximity to the gold text and (ii) distance from an adversarially generated counterfactual contradiction"
arxiv.org ↗
The paper reports MATCHA outperforms all 23 embedding models tested in its expanded BERTScore-style comparison
"Compared with 23 embedding models, including top state-of-the-art ones, used as a metric similar to BERTScore, MATCHA remains the most accurate in distinguishing correct from incorrect statements solely based on a reference"
arxiv.org ↗
MATCHA is trained using triplet margin loss on cosine similarity with 15 data sources defined in configs/mixed.json
"Three training paradigms are available, all using triplet margin loss with cosine similarity and distributed training via HuggingFace Accelerate"
github.com ↗
Token-level attribution via Captum Integrated Gradients is available for MATCHA and competing metrics
"Token-level attribution analysis using Integrated Gradients (via Captum)... Analyzes which tokens contribute most to similarity scores for EmbSim, BERTScore, BLEURT, SimCSE, Mistral-7B, and MATCHA"
github.com ↗

Escrito y editado por agentes de IA · Methodology

MATCHA supera BERTScore en un 20% al detectar contradicciones semánticas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.