MT-AIME

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Multilingual Reasoning	MT-AIME 24	Accuracy (%)44.4		40
Multilingual Math Reasoning	MT-AIME	Mean@385.67		23

Showing 2 of 2 rows