Share your thoughts, 1 month free Claude Pro on usSee more

Chatbot Evaluation on MT-Bench (GPT-4-Turbo Score)

9.5Score (GPT-4-Turbo)

Qwen3-32B + RLBFF training

Updated 2mo ago

Evaluation Results

Method	Links
Qwen3-32B + RLBFF training 2025.09		9.5
DeepSeek R1 2025.09		9.49
Qwen3-32B + Baseline BT training 2025.09		9.45
Qwen3-32B 2025.09		9.38
o3-mini 2025.09		9.26
Claude-3.7-Sonnet (Thinking) 2025.09		8.93