Share your thoughts, 1 month free Claude Pro on usSee more

Video Reasoning on SEED-Bench L2 OOD R1

51.6Accuracy

APPO

Updated 1mo ago

Evaluation Results

Method	Links
APPO 2026.02		51.6
DAPO 2026.02		51.3
GRPO 2026.02		49.7
SFT 2026.02		42.8
APPO 2026.02		40
APPO 2026.02		39.1
DAPO 2026.02		37.5
GRPO 2026.02		35.7
VideoChat-R1 2026.02		34.4
SFT 2026.02		33.7
Base Model 2026.02		32.7
VideoRFT 2026.02		32.5
Video-R1 2026.02		32.3
Base Model 2026.02		29.4
TW-GRPO 2026.02		29
GRPO-CARE 2026.02		28.3