Share your thoughts, 1 month free Claude Pro on usSee more

Multi-turn Conversation on MT-Bench (AVG Metric)

85.25Average Score

CoDIT-Qwen3-8B

Updated 1mo ago

Evaluation Results

Method
CoDIT-Qwen3-8B 2026.04	85.25	-	-
DEPO 2026.05	84.5	-	-
HRC+SPPO 2026.05	84.2	86.1	82.4
CoDIT-Qwen3-30B 2026.04	84.18	-	-
POPO 2026.05	83.8	-	-
GPM+SPPO 2026.05	83.6	86.1	81
CoDIT-Gemma3 2026.04	83.13	-	-
DPO 2026.05	82.9	-	-
HRC+DSPPO 2026.05	82.9	84.9	81
WebR-Pro 2026.04	82.72	-	-
BT+SPPO 2026.05	82.5	84.2	80.8
HRC+DSPPO 2026.05	82.4	86.1	78.6
XPO 2026.05	82.1	-	-
GPM+SPPO 2026.05	82.1	85.8	78.5
HRC+SPPO 2026.05	82.1	84.5	79.8
HRC+SPPO 2026.05	82.1	84.8	79.4
HRC+SPPO 2026.05	81.8	83.9	79.6
BT+SPPO 2026.05	81.6	83.9	79.2
HRC+DSPPO 2026.05	81.4	85.5	77.4
HRC+DSPPO 2026.05	81.1	84.8	77.5
HRC+DSPPO 2026.05	81.1	84.6	77.5
HRC+SPPO 2026.05	81.1	85	77.2
BT+SPPO 2026.05	80.8	84.8	76.9
BASE 2026.05	80.7	83.9	77.5
BASE 2026.05	80.7	83.9	77.5
Llama-3.1-LMSYS-Chat-1M-Synth 2026.04	80.05	-	-
BT+SPPO 2026.05	80	83.8	76.2
BT+SPPO 2026.05	79.9	82.1	77.8
BT+SPPO 2026.05	79.8	82.1	77.4
GPM+SPPO 2026.05	79.8	83	76.5
GPM+SPPO 2026.05	79	83.8	74.2
HRC+DSPPO 2026.05	78.6	80.4	76.8
HRC+SPPO 2026.05	77.8	83.9	71.6
GPM+SPPO 2026.05	77	79.8	74.2
Llama-3-8B-SFT 2026.05	76.6	-	-
DomLoRA 2026.05	75.9	-	-
GPM+SPPO 2026.05	75.5	78.5	72.5
WebR-Basic 2026.04	75.43	-	-
CoDIT-Qwen3-8B 2026.04	75.39	-	-
Gemma-2-LMSYS-Chat-1M-Synth 2026.04	74.56	-	-
CoDIT-Gemma3 2026.04	74.33	-	-
Magpie-Pro-300K-Filtered 2026.04	74.05	-	-
CoDIT-Qwen3-30B 2026.04	73.73	-	-
Llama-3.1-LMSYS-Chat-1M-Synth 2026.04	72.11	-	-
WildChat 2026.04	70.04	-	-
WebR-Pro 2026.04	70	-	-
Gemma-2-LMSYS-Chat-1M-Synth 2026.04	69.51	-	-
PLoP 2026.05	69.1	-	-
DomLoRA 2026.05	67	-	-
WebR-Basic 2026.04	64.31	-	-
IST 2026.05	63.2	-	-
Magpie-Pro-300K-Filtered 2026.04	63.15	-	-
LoRA 2026.05	62.5	-	-
WildChat 2026.04	62.24	-	-
IST 2026.05	62.1	-	-
LoRA 2026.05	61.6	-	-
PLoP 2026.05	60.8	-	-
Vanilla 2026.05	8.82	-	-
I-DPO +MaPPO 2025.07	8.66	-	-
GRPO 2025.07	8.65	-	-
PPO 2025.07	8.61	-	-
EVA (text) 2026.05	8.48	-	-
LoRA 2026.05	8.39	-	-
SafeDecoding 2026.05	8.32	-	-
S-SPPO 2026.06	8.22	8.54	7.9
S-SPPO 2026.06	8.21	8.6	7.82
LoRA 2026.05	8.14	-	-
SafeDecoding 2026.05	8.05	-	-
S-SPPO 2026.06	8.03	8.2	7.85
Llama-3-8B-SPPO 2026.06	8.01	8.29	7.73
Llama-3-8B-SPPO 2026.06	7.97	8.33	7.61
Vanilla 2026.05	7.93	-	-
Llama-3-8B-SPPO 2026.06	7.93	8.36	7.49
Circuit Breakers 2026.05	7.91	-	-
LED 2026.05	7.87	-	-
Vanilla 2026.05	7.79	-	-
S-SPPO 2026.06	7.66	7.96	7.36
Mistral-7B-SPPO 2026.06	7.59	7.84	7.34
Snorkel (Mistral-PairRM-DPO) 2026.06	7.58	7.83	7.33
S-SPPO 2026.06	7.55	7.84	7.26
S-SPPO 2026.06	7.55	8.04	7.05
LoRA 2026.05	7.54	-	-
Mistral-7B-Instruct-v0.2 2026.06	7.51	7.78	7.25
Mistral-7B-SPPO 2026.06	7.49	7.9	7.08
EVA (text) 2026.05	7.44	-	-
EVA (text) 2026.05	7.35	-	-
LED 2026.05	7.29	-	-
Circuit Breakers 2026.05	7.21	-	-
Mistral-7B-SPPO 2026.06	7.21	7.63	6.79
SafeDecoding 2026.05	7.16	-	-
LED 2026.05	7.09	-	-
Mistral-7B-DPO 2026.06	7.09	7.49	6.69
Mistral-7B-DPO 2026.06	7.06	7.57	6.56
Mistral-7B-DPO 2026.06	7.02	7.45	6.58
LoRA 2026.05	6.9	-	-
Vanilla 2026.05	6.89	-	-
EVA (text) 2026.05	6.84	-	-
Vanilla 2026.05	6.77	-	-
SafeDecoding 2026.05	6.61	-	-
EVA (text) 2026.05	6.31	-	-

Showing 100 of 107 rows