Share your thoughts, 1 month free Claude Pro on usSee more

Safety Evaluation on WildChat (test)

69.85WildChat Score

SFT-DPO + LoRA

Updated 5mo ago

Evaluation Results

Method	Links
SFT-DPO + LoRA 2026.02		69.85
SFT 2026.02		64.2
SFT-DPO 2026.02		59.4
SFT 2026.02		50
DPO + OGPSA 2026.02		49.4
SFT + OGPSA 2026.02		47
DPO 2026.02		42.8
SFT + LoRA 2026.02		42.6
DPO + OGPSA 2026.02		38.4
SFT + Merge 2026.02		31.2
Instruct Baseline 2026.02		16
Instruct Baseline 2026.02		15.8
SFT + General Data 2026.02		14.4