Share your thoughts, 1 month free Claude Pro on usSee more

Harmfulness Evaluation on PKU-SafeRLHF

-1.11Beaver-7B-Cost Score

DLMA

Updated 4mo ago

Evaluation Results

Method	Links
DLMA 2024.02		-1.11
RCLD 2024.02		-0.14
CD 2024.02		0.04
DLMA 2024.02		1.92
RCLD 2024.02		3.32
CD 2024.02		3.58
RLAIF 2024.02		5.13
Llama2 2024.02		6.05
RLAIF 2024.02		6.12
Llama2 2024.02		6.28