OVEN

Benchmarks

Task Name	Dataset Name	SOTA Result
Knowledge-Based Visual Question Answering	OVEN (val)	Accuracy (All)25.1	20
Visual Entity Recognition	OVEN	HM (Unseen)28.5	15
Visual Question Answering	OVEN Query 1.0 (test)	HM30.9	15
Fine-grained Entity Recognition	OVEN Entity 1.0 (test)	HM29.6	15
(Image, Text)-to-Multimodal Retrieval	OVEN	R@575.3	14
(Image, Text)-to-Text Retrieval	OVEN	Recall@557.8	14
Visual Entity Recognition	OVEN entity (test)	Top-1 Accuracy (Seen)65	11
Open-Vocabulary Entity Recognition	OVEN	EM0.789	8
Multi-modal retrieval (Image-Text to Text/Image-Text)	OVEN QS	Recall@58.39	7
Visual Entity Recognition	OVEN (test)	Top-1 Acc (Seen)33.6	7
Multi-modal to multi-modal retrieval ((q^i, q^t) -> (c^i, c^t))	OVEN (held-out)	R@567.6	6
Multi-modal to text retrieval ((q^i, q^t) -> c^t)	OVEN (held-out)	R@546.5	6
Multimodal Retrieval	OVEN-8	R@575.98	6
Multimodal Retrieval	OVEN-6	R@558.17	6
Visual Question Answering	OVEN	EM15.88	6
Open-domain Visual Entity Recognition	OVEN Wiki (human evaluation set)	Score (Seen Entities)76.1	6
Retrieval	OVEN M2KR	R@142.8	4
Image-text-to-multimodal retrieval	OVEN M-BEIR (test)	Recall@567.6	4
Image-text-to-text retrieval	OVEN M-BEIR (test)	Recall@546.9	4
Open-Vocabulary Entity Grounding	OVEN (test)	Accuracy23.1	2

Showing 20 of 20 rows