Share your thoughts, 1 month free Claude Pro on usSee more

Large Language Model Evaluation on MMLU, GSM8K, GPQA, HumanEval, TruthfulQA, and IFEVAL

70.7MMLU

GRPO

Updated 4mo ago

Evaluation Results

Method	Links
GRPO 2025.05		70.7	75.7	28	64.3	59.9	-	62.1
TI-DPO 2025.05		70	73	26	67	62	-	62.3
TIS-DPO 2025.05		69.3	70.5	24.5	65.5	62.5	-	61.1
TPO 2025.05		68.3	72.7	27.7	63.7	59	-	60.7
GRPO 2025.05		68	52	9	51	64	56	50
CPO 2025.05		67.3	70.7	26	62.8	58.3	-	59.4
KTO 2025.05		66.3	70.3	25.3	62	57.7	-	58.7
cDPO 2025.05		66.1	70.1	25.1	61.9	57.6	-	58.5
TI-DPO 2025.05		66	47	7	53	66	59	49.7
DPO 2025.05		65.3	69.3	24	61	56.7	-	57.7
TPO 2025.05		65	48	8	50	62	53	47.7
TDPO 2025.05		65	68.2	23.5	60.3	56.3	-	57
CPO 2025.05		64	46	7.5	49	61.5	51	46.5
SFT 2025.05		64	68	22.7	59.3	55.5	-	56.7
Logic-RL 2025.05		63.8	73.8	23.7	61	55.6	-	57.9
SimPO 2025.05		63.5	64.7	21.8	58.2	54.2	-	54.5
KTO 2025.05		63	45	7	48	61	50	45.7
IPO 2025.05		63	65.3	20.3	57.3	52.7	-	54.2
DPO 2025.05		62	44	6	47	60	50	44.8
TDPO 2025.05		61	43	5.5	46	60	48	43.9
SFT 2025.05		60	42	5	45	59.5	54	44.2
IPO 2025.05		59	40	3	43	56	47	41.3
SIMPO 2025.05		58	38	4	42	57	45	40.7