Share your thoughts, 1 month free Claude Pro on usSee more

General Language Model Evaluation on Arena-Hard V2.0

7.03Win Rate

RM-NLHF

Updated 4mo ago

Evaluation Results

Method	Links
RM-NLHF 2026.01		7.03
Outcome-only 2026.01		6.55
RM-NLHF 2026.01		4.64
Outcome-only 2026.01		4.3
Outcome-only 2026.01		3.93
RM-NLHF 2026.01		3.85
Outcome-only 2026.01		3.69
RM-NLHF 2026.01		3.56
DeepSeek-Distilled-Qwen-7B 2026.01		3.39