Share your thoughts, 1 month free Claude Pro on usSee more

Language Model Evaluation on Open LLM Leaderboard v2 (test)

60.84BBH

Qwen3-8B

Updated 2mo ago

Evaluation Results

Method
Qwen3-8B 2026.02	60.84	36.33	39.21	52.49	47.62	43.12	-
COMPOT 2026.02	50.22	31.96	33.45	12.76	38.55	41.8	-
COMPOT† 2026.02	49.33	30.54	30.46	6.72	35.92	45.11	-
Mistral+UFT 2024.10	46.55	29.24	28.89	3.87	30.25	41.73	30.09
Mistral+SFT 2024.10	46.04	28.72	29.5	2.66	29.35	42.94	29.87
Mistral+UFT 2024.10	45.46	31.15	46.03	3.13	30.05	41.06	32.81
COMPOT 2026.02	44.87	28.94	31.89	2.49	32.85	40.34	-
Mistral+SFT+DPO 2024.10	44.52	29.98	26.64	3.13	29.95	40.31	29.09
Mistral 2024.10	44.11	29.53	23.22	2.92	30.11	41.79	28.61
Mistral+SFT+UNA 2024.10	43.74	30.78	26.82	2.96	30.09	40.56	29.16
Mistral+SFT+KTO 2024.10	42.89	31	25.17	2.94	30.48	40.59	28.85
COMPOT† 2026.02	41.45	28.86	26.74	1.51	29.46	40.61	-
SVD-LLM 2026.02	41.03	28.27	25.66	1.06	26.3	39.81	-
COMPOT 2026.02	37.51	28.1	26.14	0.98	26.44	38.89	-
Qwen3-0.6B 2026.02	36.85	28.27	27.58	12.69	24.26	31.35	-
SVD-LLM 2026.02	34.3	25.59	22.66	1.06	18.73	41.4	-
COMPOT† 2026.02	34.13	24.75	23.14	1.06	21.23	41.27	-
COMPOT† 2026.02	30.83	23.49	25.06	0.23	10.85	32.8	-
SVD-LLM 2026.02	30.24	22.99	22.42	0.83	11.54	37.57	-
COMPOT 2026.02	30.19	25.34	25.9	0.91	14.81	33.2	-
COMPOT 2026.02	29.99	26.59	27.7	0.68	11.43	35.71	-
SVD-LLM 2026.02	29.73	25.5	24.34	0	11.22	33.73	-
COMPOT† 2026.02	29.21	25.84	24.58	0.98	10.85	36.51	-
COMPOT† 2026.02	29.2	27.94	27.22	1.06	12.81	35.19	-
COMPOT 2026.02	29.06	23.74	26.62	0.38	10.66	33.73	-
SVD-LLM 2026.02	29.01	24.33	22.3	0	10.98	36.24	-
SVD-LLM 2026.02	28.95	24.75	25.3	0	11.29	35.58	-
SPIN Iter-3 2026.05	28.46	3.36	44.13	5.21	22.92	12.96	19.51
SPIN Iter-4 2026.05	28.36	3.8	44.01	4.98	23.02	13.44	19.6
SPIN Iter-2 2026.05	28.17	4.81	43.21	5.14	22.93	13.28	19.59
TPAW Iter-1 2026.05	28.16	6.15	38.76	5.21	23.17	13.65	19.18
TPAW Iter-4 2026.05	28.14	6.15	45.12	6.34	23.56	15.73	20.84
SPIN Iter-1 2026.05	28.05	6.26	42.91	4.83	22.84	13.17	19.68
TPAW Iter-2 2026.05	27.85	6.38	42.43	6.19	23.02	16.22	20.35
TPAW Iter-3 2026.05	27.82	6.26	45.04	5.89	23.34	16.16	20.75
SFT 2026.05	26.28	6.15	36.34	4.61	21.01	11.77	17.69
DPO 2026.05	25.83	6.6	36.83	4.53	21.91	11.78	17.91
DPO 2026.05	16.25	2.24	31.79	9.89	18.24	2.57	13.5
TPAW Iter-1 2026.05	15.6	3.24	32.35	8.69	17.65	5.66	13.87
TPAW Iter-4 2026.05	15.51	4.36	36.04	9.37	17.82	4.73	14.64
SPIN Iter-1 2026.05	15.47	4.03	32.44	8.23	17.57	5.55	13.88
TPAW Iter-2 2026.05	15.37	4.36	35.52	8.69	17.72	5.98	14.61
SPIN Iter-2 2026.05	15.22	3.69	33.97	8.99	17.52	5.65	14.17
SFT 2026.05	15.15	3.47	31.73	6.65	17.38	6.02	13.4
TPAW Iter-3 2026.05	15.03	4.14	36.1	10.2	18.03	5.43	14.82
SPIN Iter-3 2026.05	14.44	4.47	35.34	9.06	17.58	5.16	14.34
SPIN Iter-4 2026.05	14.33	4.25	33.82	9.21	17.54	5.7	14.14
SFT 2025.11	-	-	-	-	-	-	33.99
TuluDPO 2025.11	-	-	-	-	-	-	36.35
ORPO 2025.11	-	-	-	-	-	-	35.66
UltraFB 2025.11	-	-	-	-	-	-	35.54
HelpSteer 2025.11	-	-	-	-	-	-	34.3
CodePref 2025.11	-	-	-	-	-	-	34.41
UM-170k 2025.11	-	-	-	-	-	-	36.9
UM-187k 2025.11	-	-	-	-	-	-	37.45
UM-190k 2025.11	-	-	-	-	-	-	37.63