Share your thoughts, 1 month free Claude Pro on usSee more

Multi-task Evaluation on Aggregate (GSM8K, BFCL, Spider, HumanEval)

79.4Average Accuracy

RLSTA

Updated 1mo ago

Evaluation Results

Method	Links
RLSTA 2026.05		79.4	-
Base 2026.05		79.3	-
GRPO 2026.05		79	-
MAIGO 2026.05		78.6	-
SFT 2026.05		77.5	-
MAIGO 2026.05		67.5	-
MAIGO 2026.05		66.1	84.1
Base 2026.05		66	-
RLSTA 2026.05		65.6	-
GRPO 2026.05		63.8	-
SFT 2026.05		63.3	-
MAIGO 2026.05		58.2	86.3
RLSTA 2026.05		57.6	72.5
GRPO 2026.05		55.2	69.9
SFT 2026.05		53	68.4
Base 2026.05		52.8	66.5
RLSTA 2026.05		47.9	73.1
GRPO 2026.05		46.1	72.3
Base 2026.05		43.5	66
SFT 2026.05		43.3	68.4