Share your thoughts, 1 month free Claude Pro on usSee more

Span-level Machine Translation Error Detection on WMT MQM (EN-DE) 2022 (test)

42.66Precision

MQM #1

Updated 4mo ago

Evaluation Results

Method	Links
MQM #1 2026.03		42.66	44.62	43.62
MQM #2 2026.03		39.22	43.56	41.28
Sonnet 4.5 2026.03		32.61	29.75	31.12
Haiku 4.5 2026.03		30.07	19.89	23.94
gpt-oss 120b 2026.03		24.08	31.04	27.12
Qwen3 235b 2026.03		23.62	38.87	29.39