Revisiting 3D ResNets for Video Recognition

About

A recent work from Bello shows that training and scaling strategies may be more significant than model architectures for visual recognition. This short note studies effective training and scaling strategies for video recognition models. We propose a simple scaling strategy for 3D ResNets, in combination with improved training strategies and minor architectural changes. The resulting models, termed 3D ResNet-RS, attain competitive performance of 81.0 on Kinetics-400 and 83.8 on Kinetics-600 without pre-training. When pre-trained on a large Web Video Text dataset, our best model achieves 83.5 and 84.3 on Kinetics-400 and Kinetics-600. The proposed scaling rule is further evaluated in a self-supervised setup using contrastive learning, demonstrating improved performance. Code is available at: https://github.com/tensorflow/models/tree/master/official.

Xianzhi Du, Yeqing Li, Yin Cui, Rui Qian, Jing Li, Irwan Bello• 2021

Related benchmarks

Task	Dataset	Result
Action Recognition	Kinetics 400 (test)	Top-1 Accuracy83.5	245
Video Action Recognition	Kinetics 400 (val)	Top-1 Acc81	166
Action Recognition	Kinetics-600	Top-1 Acc84.3	97
Action Recognition	Kinetics-600 (test)	Top-1 Accuracy84.3	84
Video Classification	Kinetics-600 (val)	--	84
Micro-video recommendation	MicroLens 100k (test)	HR@108.459	20

Showing 6 of 6 rows

Other info

Code

Follow for update

@wizwand_team Discord