Share your thoughts, 1 month free Claude Pro on usSee more

Multi-turn Conversation Evaluation on IMDb

5.6MT-Bench Score

COALA

Updated 2mo ago

Evaluation Results

Method	Links
COALA 2026.05		5.6
ORPO 2026.05		5.5
DPO 2026.05		5.1
SFT 2026.05		3.5
COALA 2026.05		3.5
SFT 2026.05		3.2
DPO 2026.05		3.1
ORPO 2026.05		2.9
COALA 2026.05		2.9
DPO 2026.05		2.8
SFT 2026.05		2.3
ORPO 2026.05		1.7
DPO 2026.05		1.6
SFT 2026.05		1.4
SFT 2026.05		1.2
ORPO 2026.05		1.2
COALA 2026.05		1.2
ORPO 2026.05		1.1
COALA 2026.05		1.1
DPO 2026.05		1