Share your thoughts, 1 month free Claude Pro on usSee more

Outcome Reasoning on Code-Preference

77M' (F1 Mean)

GPT-5

Updated 5mo ago

Evaluation Results

Method	Links
GPT-5 2025.05		77	71
GPT-o4 2025.05		74.4	66.8
Llama4-M 2025.05		62.7	55.9
DeepSeek 2025.05		58.3	51.6
Qwen3 2025.05		57.1	50.4
Gemini2.5 2025.05		54.7	48.3
Llama4-S 2025.05		46.6	40