TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Kinetics-400	R3D-RS-200	Acc@1	80.4	# 93
Action Classification	Kinetics-400	R3D-RS-200	Acc@5	94.4	# 70
Action Classification	Kinetics-600	R3D-RS-200	Top-1 Accuracy	83.1	# 40

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/revisiting-3d-resnets-for-video-recognition/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=revisiting-3d-resnets-for-video-recognition)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/revisiting-3d-resnets-for-video-recognition/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=revisiting-3d-resnets-for-video-recognition)`

Revisiting 3D ResNets for Video Recognition

3 Sep 2021 · Xianzhi Du, Yeqing Li, Yin Cui, Rui Qian, Jing Li, Irwan Bello ·

A recent work from Bello shows that training and scaling strategies may be more significant than model architectures for visual recognition. This short note studies effective training and scaling strategies for video recognition models. We propose a simple scaling strategy for 3D ResNets, in combination with improved training strategies and minor architectural changes. The resulting models, termed 3D ResNet-RS, attain competitive performance of 81.0 on Kinetics-400 and 83.8 on Kinetics-600 without pre-training. When pre-trained on a large Web Video Text dataset, our best model achieves 83.5 and 84.3 on Kinetics-400 and Kinetics-600. The proposed scaling rule is further evaluated in a self-supervised setup using contrastive learning, demonstrating improved performance. Code is available at: https://github.com/tensorflow/models/tree/master/official.

PDF Abstract

Code

Add Remove Mark official

tensorflow/models official

76,594

code-implementation1/Code7

MindSpore-paper-code-2/code2

MindSpore-paper-code-3/code5

2023-MindSpore-1/ms-code-216

Tasks

Add Remove

Action Classification

Contrastive Learning

Video Recognition

Datasets

Kinetics

Kinetics 400

Kinetics-600

Results from the Paper

Edit

Ranked #40 on Action Classification on Kinetics-600

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Kinetics-400	R3D-RS-200	Acc@1	80.4	# 93	Compare
Action Classification	Kinetics-400	R3D-RS-200	Acc@5	94.4	# 70	Compare
Action Classification	Kinetics-600	R3D-RS-200	Top-1 Accuracy	83.1	# 40	Compare

Methods

Add Remove

1x1 Convolution • 3D Convolution • 3D ResNet-RS • Average Pooling • Batch Normalization • Bottleneck Residual Block • Convolution • Cosine Annealing • Dense Connections • Global Average Pooling • Label Smoothing • Max Pooling • ReLU • Residual Block • Residual Connection • ResNet-D • ResNet-RS • Sigmoid Activation • Squeeze-and-Excitation Block • Stochastic Depth • Weight Decay • Xavier Initialization

Edit Social Preview

Revisiting 3D ResNets for Video Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove