Best-of-N evaluation on RMB

59.69Accuracy

PC2-based LLM-as-a-Judge

Updated 2mo ago

Evaluation Results

Method	Links
PC2-based LLM-as-a-Judge 2025.05		59.69
Naive Pointwise Evaluation 2025.05		40.68