Share your thoughts, 1 month free Claude Pro on usSee more

Span-level Machine Translation Error Detection on WMT MQM EN-DE 2023 (test)

39.02Precision

MQM #2

Updated 4mo ago

Evaluation Results

Method	Links
MQM #2 2026.03		39.02	37.47	38.23
Sonnet 4.5 2026.03		38.92	27.8	32.44
MQM #1 2026.03		38.04	35.51	36.73
Haiku 4.5 2026.03		37.79	18.54	24.87
gpt-oss 120b 2026.03		32.33	24.6	27.94
Qwen3 235b 2026.03		31.18	30.41	30.79