Share your thoughts, 1 month free Claude Pro on usSee more

Safety on AttaQ

0.81Average Score

REINFORCE++ (Ours)

Updated 4mo ago

Evaluation Results

Method	Links
REINFORCE++ (Ours) 2025.12		0.81
Qwen3-8B + CPO 2025.12		0.79
REINFORCE++ (Ours) 2025.12		0.78
Qwen3-8B + SFT (STAR-1) 2025.12		0.78
DeepSeek-R1-Distill-Qwen-7B + SFT (STAR-1) 2025.12		0.76
Qwen3-8B + SFT (R2D-R1) 2025.12		0.75
Qwen3-8B (thinking) 2025.12		0.73
DeepSeek-R1-Distill-Qwen-7B + CPO 2025.12		0.59
DeepSeek-R1-Distill-Qwen-7B + SFT (R2D-R1) 2025.12		0.56
Qwen3-8B + SFT (SafeChain) 2025.12		0.49
DeepSeek-R1-Distill-Qwen-7B 2025.12		0.37
DeepSeek-R1-Distill-Qwen-7B + SFT (SafeChain) 2025.12		0.37