Share your thoughts, 1 month free Claude Pro on usSee more

IHEval Prompt Extraction 1.0 (Reference)

96.9Accuracy

Qwen3-4B-it-NSHA-DPO

Updated 3mo ago

Evaluation Results

Method	Links
Qwen3-4B-it-NSHA-DPO 2026.04		96.9
Qwen3-4B-it-NSHA-HCAL 2026.04		96.9
Qwen3-4B-it 2026.04		96.2
Qwen3-4B-it-NS 2026.04		96.2
Llama3.1-8B-NSHA-DPO 2026.04		94.7
Qwen3-4B-it-CoT 2026.04		83.3
Llama3.1-8B-CoT 2026.04		81.1
Llama3.1-8B-NSHA-HCAL 2026.04		73.6
Llama3.1-8B-NS 2026.04		72.6
Llama3.1-8B 2026.04		70.1
Qwen3-4B-it-NSHA-SFT 2026.04		69.2
Llama3.1-8B-NSHA-SFT 2026.04		23.9