Share your thoughts, 1 month free Claude Pro on usSee more

Cybersecurity Benchmarking on ScBen En

87.48En

GPT-5

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5 2026.01		87.48
Qwen3-32B 2026.01		84.23
RedSage-8B-CFW 2026.01		83.62
Qwen3-8B-Base 2026.01		82.84
RedSage-8B-Base 2026.01		81.76
RedSage-8B-Seed 2026.01		81.61
RedSage-8B-DPO 2026.01		80.06
RedSage-8B-Ins 2026.01		79.91
Qwen3-8B 2026.01		73.26
Llama-3.1-8B 2026.01		72.8
DeepHat-V1-7B 2026.01		70.63
Foundation-Sec-8B 2026.01		69.86
Foundation-Sec-8B-Instruct 2026.01		68.78
Llama-Primus-Merged 2026.01		64.91
Llama-Primus-Base 2026.01		63.68
Llama-3.1-8B-Instruct 2026.01		59.66
Lily-Cybersecurity-7B-v0.2 2026.01		57.65