Share your thoughts, 1 month free Claude Pro on usSee more

General-purpose Behavior on MultiChallenge

58.6Score

Qwen3-14B-as-GenRM

Updated 5mo ago

Evaluation Results

Method	Links
Qwen3-14B-as-GenRM 2026.02		58.6
GenRM-R-Align-14B 2026.02		55.7
GenRM-RLVR-8B 2026.02		55
Qwen3-8B-as-GenRM 2026.02		52.8
GenRM-R-Align-8B 2026.02		51.7
GenRM-RLVR-14B 2026.02		51.7
Qwen3-8B 2026.02		42.9