Share your thoughts, 1 month free Claude Pro on usSee more

Code Reasoning on CRUXEval-O

83.5Accuracy

Kimi-K2 Base

Updated 1mo ago

Evaluation Results

Method	Links
Kimi-K2 Base 2026.01		83.5
JC 2026.05		80.5
JC 2026.05		79.9
MiMo-V2-Flash Base 2026.01		79.1
JC 2026.05		78.7
WSC 2026.05		78.1
WSC 2026.05		78.1
BoN 2026.05		78
BoN 2026.05		78
WSC 2026.05		77.8
JC 2026.05		77.3
BoN 2026.05		77
WSC 2026.05		76.9
DeepSeek-V3.1 Base 2026.01		76.4
SC 2026.05		76.4
SC 2026.05		76.3
BoN 2026.05		76.2
SC 2026.05		76
Self-Cert. 2026.05		76
DeepConf 2026.05		75.8
Self-Cert. 2026.05		75.6
DeepConf 2026.05		75.6
DeepSeek-V3.2 Exp Base 2026.01		74.9
SC 2026.05		74.7
Self-Cert. 2026.05		74.7
DeepConf 2026.05		74.7
Self-Cert. 2026.05		73.5
DeepConf 2026.05		71.9
Pass@1 2026.05		71.3
Pass@1 2026.05		71.3
Pass@1 2026.05		71.3
Pass@1 2026.05		71.3
INTUITOR 2025.05		67.7
Qwen3-14B 2025.05		66.3
INTUITOR 2025.05		57.4
MP 2026.02		56.5
INTUITOR 2025.05		56
Ann Brown 2026.02		55.88
CoT 2026.02		55.75
Std 2026.02		55.5
GRPO 2025.05		53.8
GRPO 2025.05		52
Qwen2.5-14B 2025.05		49.1
Mellum 2 2026.05		43.9
Qwen3-4B 2026.05		43.5
Qwen3.5-4B 2026.05		43.2
Qwen2.5-7B 2026.05		42.9
INTUITOR 2025.05		41.6
INTUITOR-Code 2025.05		41.1
OLMo-3-7B 2026.05		36.6
GRPO 2025.05		34.1
GRPO 2025.05		32.8
GRPO-PV 2025.05		29.9
INTUITOR 2025.05		29.6
CoT 2026.02		25.62
Base 2025.05		23.6
Qwen2.5-7B 2025.05		17.8
Std 2026.02		5.25
Ann Brown 2026.02		5.12
MP 2026.02		3.38
Base 2025.05		0