HourVideo: 1-Hour Video-Language Understanding

About

We present HourVideo, a benchmark dataset for hour-long video-language understanding. Our dataset consists of a novel task suite comprising summarization, perception (recall, tracking), visual reasoning (spatial, temporal, predictive, causal, counterfactual), and navigation (room-to-room, object retrieval) tasks. HourVideo includes 500 manually curated egocentric videos from the Ego4D dataset, spanning durations of 20 to 120 minutes, and features 12,976 high-quality, five-way multiple-choice questions. Benchmarking results reveal that multimodal models, including GPT-4 and LLaVA-NeXT, achieve marginal improvements over random chance. In stark contrast, human experts significantly outperform the state-of-the-art long-context multimodal model, Gemini Pro 1.5 (85.0% vs. 37.3%), highlighting a substantial gap in multimodal capabilities. Our benchmark, evaluation toolkit, prompts, and documentation are available at https://hourvideo.stanford.edu

Keshigeyan Chandrasegaran, Agrim Gupta, Lea M. Hadzic, Taran Kota, Jimming He, Crist\'obal Eyzaguirre, Zane Durante, Manling Li, Jiajun Wu, Li Fei-Fei• 2024

Related benchmarks

Task	Dataset	Result
Video Question Answering	VideoMME	Accuracy11.7	99
Video Question Answering	EgoSchema	Accuracy34.2	88
Video Question Answering	HourVideo	Accuracy27.5	11
Video Summarization	HourVideo	R-2 Score10.14	3
Video Summarization	MovieChat-1K	ROUGE-23.31	3

Showing 5 of 5 rows

Other info

Follow for update

@wizwand_team Discord