Share your thoughts, 1 month free Claude Pro on usSee more

Prompt Hijacking on IHEval Prompt Hijacking - Alignment 1.0

82.5Accuracy

Llama3.1-8B-NSHA-DPO

Updated 3mo ago

Evaluation Results

Method	Links
Llama3.1-8B-NSHA-DPO 2026.04		82.5
Llama3.1-8B-NS 2026.04		70.4
Llama3.1-8B-NSHA-HCAL 2026.04		68.5
Llama3.1-8B 2026.04		66.3
Qwen3-4B-it-NSHA-DPO 2026.04		63.7
Qwen3-4B-it 2026.04		62.6
Qwen3-4B-it-NS 2026.04		61.9
Llama3.1-8B-CoT 2026.04		59.8
Qwen3-4B-it-NSHA-HCAL 2026.04		58.7
Qwen3-4B-it-CoT 2026.04		58.2
Qwen3-4B-it-NSHA-SFT 2026.04		50.9
Llama3.1-8B-NSHA-SFT 2026.04		35.1