Share your thoughts, 1 month free Claude Pro on usSee more

Overall Language Model Evaluation on Aggregated Benchmarks STEM Code IF General

61.7Average Score

GenRM-R-Align-14B

Updated 1mo ago

Evaluation Results

Method	Links
GenRM-R-Align-14B 2026.02		61.7
GenRM-R-Align-8B 2026.02		59.7
GenRM-RLVR-14B 2026.02		59.4
Qwen3-14B-as-GenRM 2026.02		59.1
Qwen3-8B-as-GenRM 2026.02		58.1
GenRM-RLVR-8B 2026.02		57.6
Qwen3-8B 2026.02		53.9