GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4

About

This paper introduces GEMBA-MQM, a GPT-based evaluation metric designed to detect translation quality errors, specifically for the quality estimation setting without the need for human reference translations. Based on the power of large language models (LLM), GEMBA-MQM employs a fixed three-shot prompting technique, querying the GPT-4 model to mark error quality spans. Compared to previous works, our method has language-agnostic prompts, thus avoiding the need for manual prompt preparation for new languages. While preliminary results indicate that GEMBA-MQM achieves state-of-the-art accuracy for system ranking, we advise caution when using it in academic works to demonstrate improvements over other methods due to its dependence on the proprietary, black-box GPT model.

Tom Kocmi, Christian Federmann• 2023

Related benchmarks

Task	Dataset	Result
Machine Translation Evaluation	WMT Metrics Shared Task 2024	SPA85.1	65
Machine Translation Meta-evaluation	WMT Metrics Shared Task Segment-level 2023 (Primary submissions)	Avg Correlation0.639	33
Machine Translation Evaluation Metric	WMT MQM 23	Acc94.5	27
Machine Translation Meta-evaluation	WMT EN-CS 2025	Acc*Eq36.9	17
Machine Translation Meta-evaluation	WMT EN-ZH 2025	Acc*Eq35.3	17
Machine Translation Meta-evaluation	WMT EN-JA 2025	Acc*Eq34.1	17
Machine Translation Meta-evaluation	WMT EN-UK 2025	Acc*Eq0.346	17
Machine Translation Evaluation	WMT MQM 2022 (test)	Accuracy (System, 3 LPs)84.7	16
Machine Translation Quality Estimation	WMT Metrics Shared Task EN–DE 2023	Average Correlation0.83	10
Quality Estimation	EN-* Gender-ambiguous Fem. vs. Masc.	QE Score (ES)97.38	10

Showing 10 of 15 rows

Other info

Follow for update

@wizwand_team Discord