Best-of-N evaluation on RewardBench v2

58.69Accuracy

PC2-based LLM-as-a-Judge

Updated 2mo ago

Evaluation Results

Method	Links
PC2-based LLM-as-a-Judge 2025.05		58.69
Naive Pointwise Evaluation 2025.05		55.51