Share your thoughts, 1 month free Claude Pro on usSee more

Span-level Machine Translation Error Detection on WMT MQM (ZH-EN) 2023 (test)

50.25Precision

Haiku 4.5

Updated 4mo ago

Evaluation Results

Method	Links
Haiku 4.5 2026.03		50.25	25.66	33.97
Sonnet 4.5 2026.03		48.82	33.94	40.04
MQM #2 2026.03		44.57	39.82	42.06
gpt-oss 120b 2026.03		44.55	29.1	35.2
MQM #1 2026.03		40.17	39.48	39.82
Qwen3 235b 2026.03		40.12	39.5	39.81