Share your thoughts, 1 month free Claude Pro on usSee more

Safety Alignment on AdvBench

-0.38Reward

SEA

Updated 4mo ago

Evaluation Results

Method	Links
SEA 2025.05		-0.38	-	-	-	0.19	75.32
RS 2025.05		-1.51	-	-	-	0.96	-24.68
BoN-64 2025.05		-1.55	-	-	-	0.77	0
BoN-32 2025.05		-1.75	-	-	-	0.96	-24.68
SEA 2025.05		-1.83	-	-	-	3.85	73.3
CBS 2025.05		-2.11	-	-	-	0.96	-24.68
SFT 2025.05		-2.36	-	-	-	0.77	-
BoN-8 2025.05		-2.45	-	-	-	0.38	50.65
CBS 2025.05		-3.84	-	-	-	6.35	55.96
SEA 2025.05		-4.03	-	-	-	6.92	86.37
BoN-64 2025.05		-4.29	-	-	-	8.85	38.63
ARGS 2025.05		-4.96	-	-	-	0.19	75.32
BoN-32 2025.05		-5	-	-	-	8.65	40.01
ARGS 2025.05		-5.41	-	-	-	8.27	42.65
SEA 2025.05		-5.61	-	-	-	5.58	91.54
BoN-64 2025.05		-6.13	-	-	-	28.27	44.32
BoN-8 2025.05		-6.32	-	-	-	11.73	18.65
BoN-32 2025.05		-6.86	-	-	-	28.27	44.32
BoN-64 2025.05		-7.16	-	-	-	43.85	33.52
RS 2025.05		-7.41	-	-	-	6	58.39
CBS 2025.05		-7.62	-	-	-	23.65	53.42
ARGS 2025.05		-7.97	-	-	-	22.5	55.68
BoN-32 2025.05		-8.07	-	-	-	43.65	33.82
SFT 2025.05		-8.1	-	-	-	14.42	-
CBS 2025.05		-8.24	-	-	-	24.81	62.38
BoN-8 2025.05		-8.48	-	-	-	32.12	36.73
ARGS 2025.05		-8.76	-	-	-	25.96	60.64
BoN-8 2025.05		-9.59	-	-	-	49.23	25.36
RS 2025.05		-9.98	-	-	-	40	21.21
RS 2025.05		-10.73	-	-	-	50	24.2
SFT 2025.05		-11.95	-	-	-	50.77	-
SFT 2025.05		-12.42	-	-	-	65.96	-
Self-Refine (Debate) 2025.06		-	33	61	6	-	-
RLAIF 2025.06		-	33	64	3	-	-
Chain-of-Thought 2025.06		-	99	0	1	-	-
Best-of-N 2025.06		-	99	1	0	-	-
Multi-Agent Debate 2025.06		-	99	1	0	-	-