Share your thoughts, 1 month free Claude Pro on usSee more

Code Generation on BigCodeBench-I Full

50.4Score

GPT-o1

Updated 4mo ago

Evaluation Results

Method	Links
GPT-o1 2025.09		50.4
DeepSeek-V2.5-238B 2025.09		48.9
CRITIQUE-CODER 2025.09		46.6
Baseline (Qwen3-8B) 2025.09		44.6
Qwen3-8B-RL 2025.09		44.5
AceCoder-7B 2025.09		43.3
CRITIQUE-CODER 2025.09		43.1
Baseline (Qwen3-4B) 2025.09		42
Qwen3-4B-RL 2025.09		40.6
DeepCoder-14B 2025.09		38.2
DeepSeek-R1-Distill-14B 2025.09		38.1