DRBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Domain Reasoning	DRBench (test)	Score42.9	14
Large Vision-Language Model Evaluation	DRBench BS	MCQ Score29.68	14
Large Vision-Language Model Evaluation	DRBench S Subset	MCQ Accuracy47.22	14
Large Vision-Language Model Evaluation	DRBench B	MCQ Score27.04	14
Question Answering	DRBench	F1 Score65.8	12
Agentic Task	DRBench	Score43	10
Citation URL Validity Analysis	DRBench	Non-resolving Rate5.4	10
Information Retrieval	DRBench	IE Score50.27	8

Showing 8 of 8 rows