Our new X account is live! Follow @wizwand_team for updates
WorkDL logo mark

Reward Modeling on RewardBench Precise IF 2

57.5Accuracy

Gemini-2.5-Flash

-0.01214.91929.8544.781Feb 2, 2026Feb 4, 2026Feb 6, 2026Feb 8, 2026Feb 10, 2026Feb 12, 2026Feb 14, 2026
Updated 4d ago

Evaluation Results

MethodLinks
57.5-
2026.02
46.2-
2026.02
42.5-
2026.02
41.9-
2026.02
40-
38.8-
2026.02
36.9-
2026.02
34.4-
2026.02
34.4-
2026.02
33.1-
2026.02
30.6-
2026.02
29.2-
2026.02
28.9-
2026.02
28-
2026.02
26-
2026.02
25-
2026.02
25-
2026.02
24.6-
2026.02
24.4-
2026.02
24.2-
2026.02
23.8-
2026.02
23.8-
2026.02
23.6-
2026.02
23.5-
2026.02
23.2-
2026.02
23.1-
2026.02
23-
2026.02
23-
2026.02
22.2-
2026.02
21.9-
2026.02
21.9-
2026.02
21.9-
2026.02
21.8-
2026.02
21.5-
2026.02
21.2-
2026.02
20.9-
2026.02
20.6-
2026.02
20.2-
2026.02
20.1-
2026.02
19-
2026.02
17.6-
2026.02
16.1-
2026.02
16-
2026.02
15.2-
2026.02
15.2-
2026.02
15.2-
2026.02
14.2-
2026.02
14.1-
2026.02
13.9-
2026.02
13.9-
2026.02
13.9-
2026.02
13.8-
2026.02
13.6-
2026.02
13.2-
2026.02
13.1-
2026.02
13-
2026.02
12.8-
2026.02
12.2-
2026.02
11.6-
2026.02
11.4-
2026.02
10.8-
2026.02
10-
2026.02
9.9-
2026.02
9.4-
2026.02
9.2-
2026.02
7.9-
2026.02
7.1-
2026.02
6.1-
2026.02
4.9-
2026.02
2.2-
2025.12
-57.2
2025.12
-60.5
2025.12
-55.6
2025.12
-53
2025.12
-50.7
2025.12
-49
2025.12
-52.8
2025.12
-51.5
2025.12
-49.5
2025.12
-52.2
2025.12
-47.4
2025.12
-52.7