Share your thoughts, 1 month free Claude Pro on usSee more

Pairwise Evaluation on MT-Bench

83.69Human Agreement Rate

Fine-tuned Rubric Generator

Updated 1mo ago

Evaluation Results

Method	Links
Fine-tuned Rubric Generator 2026.05		83.69
Fine-tuned Rubric Generator 2026.05		83.35
Fine-tuned Rubric Generator 2026.05		82.93
Fine-tuned Rubric Generator 2026.05		82.87
Fine-tuned Rubric Generator 2026.05		82.72
Fine-tuned Rubric Generator 2026.05		82.62
Highest Training-free 2026.05		81.72
Highest Training-free 2026.05		80.98
Highest Training-free 2026.05		80.55