Share your thoughts, 1 month free Claude Pro on usSee more

Scientific Reasoning on GPQA 1.0 (test)

53.8Accuracy

A3PO

Updated 4mo ago

Evaluation Results

Method	Links
A3PO 2025.12		53.8
W-REINFORCE 2025.12		51.4
Lp-Reg 2025.12		51.2
DAPO w/ Fork Tokens 2025.12		50.4
A3PO 2025.12		50.2
DAPO 2025.12		50.2
GRPO 2025.12		48.4
Lp-Reg 2025.12		47.8
W-REINFORCE 2025.12		47.4
DAPO w/ Fork Tokens 2025.12		47.2
DAPO 2025.12		45.8
GRPO 2025.12		45.3
A3PO 2025.12		39.1
Lp-Reg 2025.12		36.9
DAPO w/ Fork Tokens 2025.12		36.5
W-REINFORCE 2025.12		36.2
DAPO 2025.12		34.6
GRPO 2025.12		33.7