Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Soft constrained reward optimization on XSum on Gemma-7B

0.147Average Soft Constrained Reward

MLP-CSR

-0.005880.033810.07350.11319May 14, 2026
Updated 19d ago

Evaluation Results

MethodLinks
2026.05
0.147
2026.05
0.147
2026.05
0.145
2026.05
0.144
2026.05
0.143
2026.05
0.143
2026.05
0.143
2026.05
0.143
2026.05
0.142
2026.05
0.142
2026.05
0.142
2026.05
0.142
2026.05
0.142
2026.05
0.141
2026.05
0.141
2026.05
0.14
2026.05
0.14
2026.05
0.139
2026.05
0.139
2026.05
0.137
2026.05
0.134
2026.05
0.123
2026.05
0.122
2026.05
0.117
2026.05
0.066
2026.05
0.044
2026.05
0.037
2026.05
0.037
2026.05
0.037
2026.05
0.036
2026.05
0.03
2026.05
0.021
2026.05
0.021
2026.05
0.021
2026.05
0.015
2026.05
0