Share your thoughts, 1 month free Claude Pro on usSee more

Code Generation on BigCodeBench-I Hard

28.4Score

GPT-o1

Updated 4mo ago

Evaluation Results

Method	Links
GPT-o1 2025.09		28.4
DeepSeek-V2.5-238B 2025.09		27
CRITIQUE-CODER 2025.09		27
Qwen3-8B-RL 2025.09		24.3
Baseline (Qwen3-8B) 2025.09		23.6
Qwen3-4B-RL 2025.09		23
CRITIQUE-CODER 2025.09		23
DeepSeek-R1-Distill-14B 2025.09		20.9
Baseline (Qwen3-4B) 2025.09		20.9
AceCoder-7B 2025.09		19.6
DeepCoder-14B 2025.09		18.2