Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on Overall

89.6Accuracy

WHISPER

Updated 2mo ago

Evaluation Results

Method
WHISPER 2025.10	89.6	-	-	-	-	63
ChainofDraft 2025.10	89.5	-	-	-	-	83.9
BeConcise 2025.10	88.7	-	-	-	-	88
Original 2025.10	87.9	-	-	-	-	100
GEPA 2025.10	87.6	-	-	-	-	75.1
DEER* 2025.10	87.6	-	-	-	-	80.5
WHISPER 2025.10	86.3	-	-	-	-	78
BeConcise 2025.10	86.1	-	-	-	-	94.4
Original 2025.10	85.9	-	-	-	-	100
GEPA 2025.10	85.8	-	-	-	-	81.3
DEER* 2025.10	83.9	-	-	-	-	83.3
ChainofDraft 2025.10	82.3	-	-	-	-	78.6
Step-GRPO 2026.04	82.1	-	-	-	68	-
GRPO 2026.04	80.9	-	-	-	89.7	-
GRPO+SOP 2026.04	80.4	-	-	-	67.9	-
SGPO 2025.05	80.17	-	-	-	-	-
Vanilla 2026.04	79.9	-	-	-	100	-
GRPO-λ 2026.04	79.9	-	-	-	62.9	-
Vanilla 2026.04	79.3	-	-	-	100	-
GRPO 2026.04	79.3	-	-	-	86.9	-
GRPO 2025.05	79.15	-	-	-	-	-
Step-GRPO 2026.04	79.1	-	-	-	68.7	-
WHISPER 2025.10	79	-	-	-	-	80.3
Baseline 2025.05	78.84	-	-	-	-	-
Original 2025.10	78.5	-	-	-	-	100
BeConcise 2025.10	78.5	-	-	-	-	96.7
GRPO+LP 2026.04	78.4	-	-	-	53.2	-
GEPA 2025.10	78.4	-	-	-	-	86.8
ChainofDraft 2025.10	78	-	-	-	-	92.6
GRPO-8k 2026.04	77.6	-	-	-	68.1	-
GRPO+LP 2026.04	77.6	-	-	-	52.8	-
GRPO-λ 2026.04	77.5	-	-	-	61.5	-
GRPO+SOP 2026.04	77.4	-	-	-	69.2	-
DEER* 2025.10	76.5	-	-	-	-	84
GRPO-8k 2026.04	75.5	-	-	-	70.4	-
DEER+SFT 2026.04	72.6	-	-	-	78.9	-
NoThinking 2025.10	69.8	-	-	-	-	28.8
DEER+SFT 2026.04	67.6	-	-	-	80.3	-
SGPO 2025.05	66.19	-	-	-	-	-
GRPO 2026.04	66.1	-	-	-	88.3	-
SGPO 2025.05	65.42	-	-	-	-	-
SGPO 2025.05	65.41	-	-	-	-	-
SGPO 2025.05	65.08	-	-	-	-	-
SGPO 2025.05	64.91	-	-	-	-	-
Segment Selective SFT 2026.01	64.5	-	-	8,499	-	-
GRPO 2025.05	63.72	-	-	-	-	-
Step-GRPO 2026.04	63.2	-	-	-	69.7	-
Baseline 2025.05	62.85	-	-	-	-	-
GRPO-8k 2026.04	62.5	-	-	-	70.8	-
NoThinking 2025.10	62.5	-	-	-	-	23.5
GRPO-λ 2026.04	61.9	-	-	-	68.3	-
GRPO+SOP 2026.04	61.5	-	-	-	76.1	-
Vanilla 2026.04	61.2	-	-	-	100	-
GRPO+LP 2026.04	60.7	-	-	-	57.5	-
NoThinking 2025.10	56	-	-	-	-	31.9
SGPO 2025.05	53.81	-	-	-	-	-
GRPO 2025.05	53.06	-	-	-	-	-
Baseline 2025.05	51.58	-	-	-	-	-
DEER+SFT 2026.04	51.2	-	-	-	100.2	-
Segment Selective SFT 2026.01	46.9	-	-	13,506	-	-
Segment Selective SFT 2026.01	45.6	-	-	9,852	-	-
SGPO 2025.05	45.06	-	-	-	-	-
ReLIFT 2025.06	45	-	-	3,696	-	-
GRPO 2025.05	44.39	-	-	-	-	-
SFT 2025.06	44	-	-	6,183	-	-
Baseline 2025.05	43.74	-	-	-	-	-
RL 2025.06	43.1	-	-	1,334	-	-
SGPO 2025.05	41	-	-	-	-	-
GRPO 2025.05	40.11	-	-	-	-	-
Baseline 2025.05	39.85	-	-	-	-	-
Qwen-7B-Instruct 2025.06	37	-	-	1,949	-	-
ReLIFT 2025.06	36.5	-	-	2,437	-	-
Qwen-Math-1.5B-Instruct 2025.06	34.2	-	-	3,230	-	-
RL 2025.06	34.2	-	-	1,653	-	-
SFT 2025.06	32.6	-	-	6,870	-	-
Qwen-7B 2025.06	27.1	-	-	1,118	-	-
LLaMa-8B-Instruct 2025.06	20.5	-	-	975	-	-
ReLIFT 2025.06	17.3	-	-	1,000	-	-
Qwen-Math-1.5B 2025.06	15.5	-	-	1,712	-	-
RL 2025.06	14.6	-	-	767	-	-
SFT 2025.06	13.2	-	-	1,922	-	-
Segment Selective SFT 2026.01	-	51.7	73.2	9,388	-	-
Segment Selective SFT 2026.01	-	65.8	80	7,709	-	-
Segment Selective SFT 2026.01	-	45	66.5	9,195	-	-