Open-ended Question Answering

Benchmarks

Dataset Name	SOTA Method	Metric
ConFiQA (test)	ProbeRAG	F1 Score95.7	36	3mo ago
ActivityNet		Accuracy62.3	29	4mo ago
Vad-Reasoning-Plus	Qwen3VL-Thinking	BLEU-30.106	27	4mo ago
MSVD	MiniGPT4-Video	Accuracy73.92	22	4mo ago
TruthfulQA	MoLaCE	Neutral Accuracy74.24	15	4mo ago
SAGE Web Search		Weighted Recall (Com. Sci.)35.1	12	4mo ago
MMAD (test)	MAU-GPT	ROUGE-10.7026	12	4mo ago
HybridQA (test)	ToT	Accuracy91	11	4mo ago
MoreHopQA (test)	RouteGoT	Accuracy77	11	4mo ago
HotpotQA (test)	RouteGoT	Accuracy88	11	4mo ago
TREC-DL-NF (S5)	MinosEval	Kendall's Tau (K)68.61	11	4mo ago
ANTIQUE (S5)	MinosEval	Kendall's Tau (K)65.97	11	4mo ago
PHYSOLYM-A v1 (held-out)		Problem-level Score33.4	9	2mo ago
OlymBench Phys v1 (test)		Problem Level Score53.9	9	2mo ago
PUB-OE v3 (test)	Physics-R1 (dense)	Subpart AND (v3)37.7	9	2mo ago
PhysReason v2 (test)	GPT-4o	Subpart-AND (v2)51.1	9	2mo ago
Proposed LLM-based evaluation benchmark OEQ		Completeness96.9	9	4mo ago
QAEGO4D (test)	GroundVQAB	ROUGE30.4	9	4mo ago
CountBench	OneVision-8B	Accuracy (%)85.5	8	1mo ago
VQA v2	Cambrian-8B	Exact Match Accuracy82.7	8	1mo ago
GQA	Cambrian-8B	Exact Match Accuracy0.656	8	1mo ago
LingoQA	QwenVL 3.5	ROUGE-L32	8	2mo ago
CrossAlpaca-Eval en 2.0	Qwen2.5-7B-Instruction	GPT-4o Score8.58	8	3mo ago
Qasper	w/t BoT	Accuracy13.91	7	2mo ago
NarrativeQA	w/t BoT	Accuracy73.77	7	2mo ago

Showing 25 of 41 rows