Share your thoughts, 1 month free Claude Pro on usSee more

Scientific Reasoning & QA on Science & QA Domain Multiple Datasets

4.04Average Accuracy

DVPO

Updated 4mo ago

Evaluation Results

Method	Links
DVPO 2025.12		4.04
Reinforce++ 2025.12		3.72
Dr.GRPO 2025.12		3.55
GRPO 2025.12		3.3
Robust Bellman 2025.12		3.22
PPO 2025.12		3.16
Base 2025.12		2.96