Share your thoughts, 1 month free Claude Pro on usSee more

Multi-turn Dialogue Evaluation on MT-Bench-zh

6.34Score

TaP-SFT (GPT-4)

Updated 4mo ago

Evaluation Results

Method	Links
TaP-SFT (GPT-4) 2025.06		6.34
TaP-SFT (DeepSeek-V2) 2025.06		6.19
TaP-SFT (GPT-4) 2025.06		6.18
TaP-SFT (GPT-4) 2025.06		6.16
TaP-SFT (DeepSeek-V2) 2025.06		6.12
TaP-SFT (DeepSeek-V2) 2025.06		6.1
TaP-SFT (GPT-4) 2025.06		5.99
TaP-SFT (DeepSeek-V2) 2025.06		5.97
TaP-SFT (GPT-4) 2025.06		5.79
TaP-SFT (DeepSeek-V2) 2025.06		5.67
TaP-SFT (DeepSeek-V2) 2025.06		5.6
TaP-SFT (GPT-4) 2025.06		5.53
Alpaca-GPT-4-ZH 2025.06		5.44
TaP-SFT (GPT-4) 2025.06		5.37
Alpaca-GPT-4-ZH 2025.06		5.36
Infinity-Instruct 2025.06		5.33
MOSS-SFT 2025.06		5.26
TaP-SFT (GPT-4) 2025.06		5.24
TaP-SFT (DeepSeek-V2) 2025.06		5.11
MOSS-SFT 2025.06		5.06
Infinity-Instruct 2025.06		5.06
MOSS-SFT 2025.06		5.04
TaP-SFT (GPT-4) 2025.06		5.03
Alpaca-GPT-4-ZH 2025.06		5.02
BELLE-SFT 2025.06		4.99
Infinity-Instruct 2025.06		4.96
Infinity-Instruct 2025.06		4.95
TaP-SFT (GPT-4) 2025.06		4.95
BELLE-SFT 2025.06		4.93
COIG-CQIA 2025.06		4.92
MOSS-SFT 2025.06		4.9
TaP-SFT (DeepSeek-V2) 2025.06		4.9
Infinity-Instruct 2025.06		4.89
Alpaca-GPT-4-ZH 2025.06		4.89
TaP-SFT (DeepSeek-V2) 2025.06		4.89
BELLE-SFT 2025.06		4.87
Alpaca-GPT-4-ZH 2025.06		4.83
BELLE-SFT 2025.06		4.83
BELLE-SFT 2025.06		4.83
Firefly 2025.06		4.79
Infinity-Instruct 2025.06		4.78
COIG-CQIA 2025.06		4.78
Firefly 2025.06		4.77
BELLE-SFT 2025.06		4.74
COIG-CQIA 2025.06		4.73
Infinity-Instruct 2025.06		4.71
BELLE-SFT 2025.06		4.69
TaP-SFT (DeepSeek-V2) 2025.06		4.69
Alpaca-GPT-4-ZH 2025.06		4.68
Infinity-Instruct 2025.06		4.68
MOSS-SFT 2025.06		4.66
BELLE-SFT 2025.06		4.65
BELLE-SFT 2025.06		4.63
Infinity-Instruct 2025.06		4.6
COIG-CQIA 2025.06		4.51
BELLE-SFT 2025.06		4.49
COIG-CQIA 2025.06		4.47
Firefly 2025.06		4.47
Firefly 2025.06		4.45
Infinity-Instruct 2025.06		4.45
Firefly 2025.06		4.43
Firefly 2025.06		4.41
Alpaca-GPT-4-ZH 2025.06		4.39
MOSS-SFT 2025.06		4.38
COIG-CQIA 2025.06		4.35
Alpaca-GPT-4-ZH 2025.06		4.28
MOSS-SFT 2025.06		4.23
Alpaca-GPT-4-ZH 2025.06		4.21
MOSS-SFT 2025.06		4.21
MOSS-SFT 2025.06		4.14
Alpaca-GPT-4-ZH 2025.06		4.09
MOSS-SFT 2025.06		4.06
Firefly 2025.06		3.92
Firefly 2025.06		3.77
Firefly 2025.06		3.72
Firefly 2025.06		3.69
COIG 2025.06		3.66
COIG 2025.06		3.63
COIG 2025.06		3.56
COIG 2025.06		3.48
COIG 2025.06		3.44
COIG-CQIA 2025.06		3.36
COIG 2025.06		3.35
COIG-CQIA 2025.06		3.34
COIG-CQIA 2025.06		3.32
COIG-CQIA 2025.06		3.13
COIG 2025.06		2.74
COIG 2025.06		2.69
COIG 2025.06		2.68
COIG 2025.06		2.65