Share your thoughts, 1 month free Claude Pro on usSee more

Safety on AIR-Bench

0.66Average Score

REINFORCE++ (Ours)

Updated 5mo ago

Evaluation Results

Method	Links
REINFORCE++ (Ours) 2025.12		0.66
DeepSeek-R1-Distill-Qwen-7B + SFT (STAR-1) 2025.12		0.59
REINFORCE++ (Ours) 2025.12		0.58
Qwen3-8B + CPO 2025.12		0.55
Qwen3-8B + SFT (STAR-1) 2025.12		0.51
Qwen3-8B + SFT (R2D-R1) 2025.12		0.43
DeepSeek-R1-Distill-Qwen-7B + SFT (R2D-R1) 2025.12		0.41
DeepSeek-R1-Distill-Qwen-7B + CPO 2025.12		0.41
Qwen3-8B (thinking) 2025.12		0.4
Qwen3-8B + SFT (SafeChain) 2025.12		0.29
DeepSeek-R1-Distill-Qwen-7B 2025.12		0.26
DeepSeek-R1-Distill-Qwen-7B + SFT (SafeChain) 2025.12		0.25