Share your thoughts, 1 month free Claude Pro on usSee more

Code on HumanEval (Accuracy)

96.34HumanEval Accuracy

Qwen3.5-9B + AR-SFT

Updated 1mo ago

Evaluation Results

Method
Qwen3.5-9B + AR-SFT 2026.06	96.34	-
Qwen3.5-9B (released) 2026.06	95.12	-
Qwen3-Next-80B-A3B 2026.04	95.1	-
JoyAI-LLM Flash 2026.04	94.5	-
Qwen3.5-35B-A3B 2026.04	93.9	-
GLM-4.7-Flash-T 2026.04	93.9	-
GPT-5 2026.01	93.4	-
FLARE-4B 2026.06	93.29	-
Qwen3.5-4B + AR-SFT 2026.06	92.68	-
GPT-4.1 2026.01	92.1	-
Qwen3-30B-A3B 2026.04	92.1	-
FLARE-9B 2026.06	92.07	-
ATLAS (cluster) 2026.01	91.5	-
ATLAS (cluster) 2026.01	91.5	-
Qwen3-14B 2026.05	88.41	-
Qwen3-14B + NGM 2026.05	88.41	-
SUN 2026.03	88.4	-
Qwen3-30B-A3B-Base 2026.04	87.8	-
Qwen3.5-4B (released) 2026.06	87.8	-
Qwen3-8B + NGM 2026.05	86.59	-
GPT-4o 2026.01	85.4	-
ATLAS (RL) 2026.01	85.4	-
Qwen3-8B 2026.05	85.37	-
Full-FT 2026.03	85.3	-
JoyAI-LLM Flash-Base 2026.04	85.3	-
SDAR-30B-A3B 2026.04	84.15	-
SUN 2026.03	84.1	-
Full-FT 2026.03	83.5	-
Gemini2.5-Pro 2026.01	81.5	-
LLaDA2.0-mini 2026.04	81.1	-
LLaDA2.1-mini 2026.04	81.1	-
Qwen3-4B + NGM 2026.05	81.1	-
RouterDC 2026.01	80.5	-
Qwen3-4B 2026.05	80.49	-
SDAR-8B-Chat 2026.04	79.88	-
Qwen3.5-35B-A3B-Base 2026.04	79.8	-
N-3-Super 120B-A12B-Base 2026.04	79.4	-
RouterDC 2026.01	79.2	-
AdaRAS 2026.01	79.19	-
BertRouter 2026.01	78.7	-
Dream-7B-Instruct 2026.04	78.05	-
Probing 2026.01	77.85	-
Baseline 2026.05	77.44	-
Elastic 2026.05	77.44	-
CoT 2026.01	77.18	-
GLM-4.5 Air-Base 2026.04	76.3	-
MLPRouter 2026.01	76.2	-
BertRouter 2026.01	75.4	-
MLPRouter 2026.01	75	-
GRPO (RLVRR) 2026.01	73	-
GRPO (BLEU) 2026.01	72.8	-
Instruct 2026.01	72.6	-
GRPO (RLPR) 2026.01	72.3	-
DPO 2026.01	72.2	-
GRPO (RM) 2026.01	72.1	-
GRPO (GRM) 2026.01	70.9	-
SFT 2026.01	70.8	-
Yuan3.0-1T Base 2026.01	70.7	-
Ling-flash base-2.0 2026.04	70.1	-
SFT 2026.01	69.9	-
FS Router 2026.01	68.9	-
Qwen3-14B-Base 2026.03	68.9	-
Qwen3-8B-Base 2026.03	68.3	-
Full-FT 2026.03	67.1	-
SUN 2026.03	67.1	-
Qwen3.5-2B + AR-SFT 2026.06	67.07	-
GRPO (Random) 2026.01	66.8	-
DeepSeek-V3-Base 2026.01	65.2	-
FLARE-2B 2026.06	64.02	-
Qwen3-1.7B + NGM 2026.05	62.2	-
Qwen3-1.7B 2026.05	60.37	-
OpenThinker-3-1.5B 2026.01	59.06	-
OpenReasoning-Nemotron-1.5B 2026.01	57.72	-
LLaMA-3.1-405B Base 2026.01	54.9	-
AtteNT 2026.02	54.26	2,012
Standard Fine-tuning 2026.02	53.83	2,282
ZS Router 2026.01	53	-
WINA 2025.05	53	-
WINA 2025.05	51.83	-
Baseline (full model) 2025.05	50.61	-
WINA 2025.05	50	-
SUN 2026.03	49.4	-
Full-FT 2026.03	48.2	-
Qwen3-1.7B-Base 2026.03	48.2	-
Qwen3.5-2B (released) 2026.06	48.17	-
TEAL 2025.05	46.95	-
AtteNT 2026.02	46.55	1,802
LLaDA-8B-Instruct 2026.04	46.34	-
TEAL 2025.05	45.73	-
DeepSeek-R1-Distill-Qwen-1.5B 2026.01	45.64	-
Standard Fine-tuning 2026.02	43.42	2,042
TEAL 2025.05	41.46	-
WINA 2025.05	41.46	-
DART 2026.05	38.11	-
Random Router 2026.01	37.8	-
Base 2026.05	37.65	-
GRPO 2026.05	37.5	-
Qwen3-0.6B + NGM 2026.05	37.2	-
STaR 2026.05	37.2	-
LLaMA3.1-8B 2026.03	36.6	-

Showing 100 of 118 rows