Share your thoughts, 1 month free Claude Pro on usSee more

Constraint Following on CELLO

65.7Accuracy

REWARDAGENT_LLAMA-OP

Updated 4mo ago

Evaluation Results

Method	Links
REWARDAGENT_LLAMA-OP 2025.02		65.7
Original UF 2025.02		62
ArmoRM-UF 2025.02		60.8
REWARDAGENT_LLAMA-UF 2025.02		60.1
ArmoRM-OP 2025.02		58.1
Zephyr-7b-sft-full 2025.02		51.5