Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge Reasoning on GPQA Diamond

75.4Accuracy (avg@8)

TRICE-30B

Updated 2mo ago

Evaluation Results

Method	Links
TRICE-30B 2026.05		75.4
Qwen3-30B-A3B-Thinking-2507 2026.05		71.2
TRICE-4B 2026.05		68.8
Qwen3-4B-Thinking-2507 2026.05		64.4
Qwen3 2026.04		64.1
I-DLM 2026.04		62.1
Qwen3 2026.04		58.9
I-DLM 2026.04		55.6
DeepSeek-R1-Distill-Qwen-7B 2025.12		47.1
Sigma-MoE-Tiny 2025.12		46.4
LLaDA-2.1-mini 2026.04		46
DeepSeek-R1-Distill-Llama-8B 2025.12		43.2
SDAR 2026.04		40.2
Qwen3-1.7B 2025.12		40.1
Phi-3.5-MoE 2025.12		36.8
SDAR 2026.04		36.7